Korba - Listy frekwencyjne

Listy frekwencyjne

Lista frekwencyjna lematów w korpusie

Na potrzeby projektu stworzona została lista frekwencyjna lematów (form podstawowych) wyrazów występujących w korpusie. Z obu wersji korpusu – otagowanej przez tagery Toygger oraz Concraft – oddzielnie wydobyte zostały wszystkie lematy wraz z informacją o frekwencji. Pominięto jedynie elementy oznakowane jako obce, znaki interpunkcyjne lub liczby. Przy podliczaniu frekwencji braliśmy pod uwagę jedynie postać lematu (formy podstawowej), zatem np. frekwencja spójnika żeby i partykuły żeby podliczona została łącznie. Decyzja taka została podyktowana tym, że dla wielu wyrazów, zwłaszcza nieodmiennych, interpretacja co do klasy fleksyjnej bywa w wielu kontekstach dyskusyjna. Następnie zostały one połączone w jedną listę, na której w dwóch kolumnach zachowaliśmy informację o frekwencji w obu wersjach korpusu. Na tak utworzonej liście znalazło się 286 980 lematów. Wiele z nich było jednak rezultatem różnorakich błędów, zatem lista wymagała dalszej edycji, która zostanie opisana w kolejnym podpunkcie.

Poniżej przedstawiamy najczęstsze 200 lematów korpusu wraz z ich frekwencją w dwóch wersjach korpusu: otagowanej tagerem Toygger oraz otagowanej tagerem Concraft. Frekwencja dla poszczególnych wyrazów w tych dwóch wersjach korpusu może się różnić, gdyż niektóre segmenty zostały różnie zinterpretowane przez oba tagery i przypisane do różnych form podstawowych. Na przykład we fragmencie:

Wniosł w sądzie niniejszym ilację alias zalił się wójt pomieniony na Stanisława Ogorzalka, który porwał się do kija na wójta, jako się pokazało, zaczym popada winę grzywien 2, grzywna jedna na wosk do kościoła tutejszego, i plag 30 postronkiem sąd nasz przykazuje in instanti.

wyróżniony segment winę został przez Toygger zinterpretowany jako forma rzeczownika wina, a przez Concraft – jako forma czasownika winąć.

Lematy są posegregowane domyślnie według frekwencji w wersji otagowanej tagerem Toygger.

Sposób utworzenia listy frekwencyjnej

Zgodnie z przyjętymi przez nas założeniami lista frekwencyjna form podstawowych w korpusie powinna odzwierciedlać zasady hasłowania przyjęte w Elektronicznym słowniku języka polskiego XVII i XVIII w. Na ile było to możliwe, należało więc pominąć lematy, które nie stanowiłyby jednostki słownikowej, a także interpretacje błędne. Lematy są, rzecz jasna, w postaci transkrybowanej, nie transliterowanej (więcej na temat transliteracji i transkrypcji zob. w zakładce „Instrukcja”).

Jak już zostało wspomniane, przy jej tworzeniu pominięte zostały zatem wyrazy oznaczone jako obce (w językach obcych), znaki interpunkcyjne oraz liczby (także rzymskie).

Spośród wyodrębnionych w ten sposób 286 980 lematów 6198 zawierało znaki spoza polskiego alfabetu, co wskazywało, że prawdopodobnie nie są to prawidłowo wskazane formy podstawowe leksemów polskich. Znalazły się tu znaki interpunkcyjne i symbole (np. lematy to_jest, arcy-biskup, w-tobie, k'myśli, po-, bę-, otwierał', ś^o^, G**, \), cyfry (np. 6-funtowy, ½, niesie1318), a także litery alfabetów innych języków (np. jɛy, εkstractu, až). Jak widać, znalazły się tu rozwiązania skrótów (to_jest) oraz same skróty, nierozwiązane celowo bądź omyłkowo (G**, ś^o^). Wiele jest przymiotników zapisanych z użyciem cyfr (6-funtowy). Poza tym wśród tych lematów są rezultaty nieprawidłowej segmentacji lub transkrypcji (wyrazy urwane: po-, bę-, doczepienie znaku interpunkcyjnego do wyrazu: otwierał', zbitki typu k’myśli, w-tobie, niesie1318, które powinny były być rozdzielone, brak uwspółcześnienia zapisu typu arcy-biskup), rzadziej innych błędów nieuniknionych na różnych etapach pracy nad tak dużym materiałem. Spośród tego rodzaju lematów pozostawiliśmy na liście jedynie partykuły +ż, +że oraz przysłówek +kroć, które znajdują się w bazie analizatora morfologicznego Korbeusz. Po usunięciu 6195 form zawierających znaki spoza polskiego alfabetu na liście pozostało 280 785 lematów.

Następnie z listy usunięto 214 600 lematów, które zostały przypisane przez tagery segmentom nierozpoznanym przez analizator morfologiczny Korbeusz. W takich przypadkach niezmiernie rzadko lemat był tożsamy z formą podstawową wyrazu polskiego. Znacznie częściej była to jakaś forma zależna leksemu niewystępującego jeszcze w bazie analizatora morfologicznego lub zawierająca jakiś błąd w zapisie. Jeśli bowiem jakiś segment nie został rozpoznany przez analizator Korbeusz, tagery zgadywały interpretację, wykorzystując schematy wyuczone na materiale znakowanym ręcznie. Jako lemat przypisywana była wówczas niezmieniona postać segmentu. Tego rodzaju błędy mogły wynikać choćby z zastosowania w trakcie transkrypcji (błędnie) innych zasad niż te stosowane w bazie Korbeusza. Stąd np. segmentowi materyjej przypisany został błędny lemat materyjej (Korbeusz nie zawiera schematu odmiany leksemu materyja, a jedynie materia). Forma materyjej nie jest pożądana na liście frekwencyjnej, gdyż w rzeczywistości wszystkie zinterpretowane w ten sposób segmenty powinny otrzymać lemat materia, który już znalazł się na liście frekwencyjnej w innym miejscu. Z tych powodów postanowiliśmy wszystkie lematy nierozpoznawane przez Korbeusza usunąć z prezentowanej listy frekwencyjnej; wyszukanie wśród nich prawdziwych kandydatów na hasła słownikowe będzie dalszym, czasochłonnym zadaniem, którego nie obejmował niniejszy projekt. Większość z nich to lematy (a właściwie ciągi znaków) występujące w korpusie rzadko lub bardzo rzadko. W pierwszym tysiącu na liście frekwencyjnej są jedynie 3 takie lematy, w kolejnym tysiącu jest ich 5, w trzecim – 4, a w czwartym – 8. Dopiero dalej ich zagęszczenie na liście zaczyna się stopniowo zwiększać. Ponad połowa z nich to lematy o pojedynczej frekwencji. Zatem pomimo że jest ich stosunkowo dużo na liście lematów, to w całym korpusie odsetek segmentów zlematyzowanych w ten sposób jest stosunkowo niewielki.

Po odrzuceniu omówionych lematów uzyskaliśmy listę zawierającą 66 185 pozycji. Wydawać by się mogło, że w korpusie bardzo wiele wyrazów zostało rozpoznanych błędnie – ponad 220 tys. lematów usunięto z listy frekwencyjnej. A jednak zlematyzowane w ten sposób segmenty stanowią zaledwie 4% wszystkich segmentów korpusu.

Pozostawiliśmy na liście frekwencyjnej lematy rozpoczynające się wielką literą, gdyż współtworzą one faktyczną zawartość korpusu, zwłaszcza jeśli chodzi o początkową część listy. Lematów mających co najmniej pierwszą literę wielką jest na omawianej liście 14 595 (w sumie było ich znacznie więcej, lecz zostały one odrzucone w przedstawionych powyżej krokach). Nie zaskakuje, że najczęstszy jest tu wyraz Bóg. Poza tym przeważają nazwy własne i nazwy narodowości (np. Chrystus, Turek, Polak, Wojciech, Marcin, Mahomet, Rzeczpospolita, Lwów, Potocki, Jowisz, Pegaz), jest też trochę zapisów zinterpretowanych jako współczesne skrótowce (np. BC, SA, CD). W tej grupie dość licznie trafiają się rzeczowniki pospolite nieprawidłowo zinterpretowane jako nazwiska (stąd np. na liście frekwencyjnej znajdują się dwa lematy Zwada i zwada zamiast jednego zwada). Jednak z reguły mają one niską frekwencję.

Ostatecznie otrzymaliśmy listę liczącą 66 185 lematów, a poniżej prezentujemy pierwsze 200.

Uwaga: przy wyszukiwaniu wybranych lematów w korpusie należy pamiętać, aby wybrać opcję “odrzuć obce segmenty”. W przeciwnym razie wynik niejednokrotnie będzie wyższy od tego podanego na liście frekwencyjnej.

Lemat	Liczba wystąpień - Toygger	Liczba wystąpień - Concraft
i	368873	368666
być	262116	261846
w	246195	246196
z	219308	213025
on	214170	212091
się	184744	184744
na	184692	184692
nie	182146	182785
ten	147993	148927
to	117827	114197
który	117419	117419
do	113801	113455
a	113550	111727
mieć	85040	84448
co	73163	73186
swój	69302	68799
że	67147	67147
od	58168	58101
tak	57176	57164
o	54757	54976
jako	53898	53887
za	47162	47162
ja	46430	46265
pan	45694	45476
wielki	43846	29877
po	43792	43734
mój	41790	29601
ale	38635	38619
by	37857	37857
móc	35210	35070
siebie	34296	34139
gdy	32551	32551
sam	32194	32110
jeden	31753	31763
aby	29185	29185
przez	27463	27463
bo	27431	27431
dla	27113	27113
albo	26860	26896
też	26661	26661
król	26616	22506
Bóg	25825	24487
ty	25470	25695
człowiek	25069	25030
drugi	24981	24458
rok	24316	24081
dać	23348	22725
my	23307	23305
chcieć	22842	22781
już	22553	22553
tylko	22358	22146
nasz	20809	18555
dzień	20557	18086
przy	20362	20362
czas	20316	19845
+ż	20176	20176
tam	19944	19907
pod	19739	19739
iż	19687	19687
kto	18868	18820
wszystek	18384	18338
u	18320	18312
dobry	18151	17472
święty	17927	17474
taki	17894	17794
twój	17762	17426
rzecz	17747	17491
miasto	17325	28170
jak	17131	17099
nad	17100	18689
żeby	16932	16932
mówić	16925	16784
gdzie	16875	16875
tedy	16788	16616
wszytek	16778	15702
kiedy	16551	16531
zaś	16059	16059
widzieć	15748	15663
tu	15460	15460
dwa	15434	15434
czynić	15151	15114
każdy	14950	14950
ani	14919	14905
inszy	14855	14601
+że	14711	14711
wiele	14596	14596
ziemia	14434	14396
bez	13992	13605
jaki	13743	13631
przed	13230	13230
wziąć	13006	12829
miejsce	12992	12993
świat	12831	12539
abo	12489	12489
część	12271	12279
iść	12211	12164
syn	12210	10852
jeśli	12193	12193
wiedzieć	11854	11846
aż	11761	11761
żaden	11700	11700
stać	11587	11145
uczynić	11294	11294
potym	11246	11246
dobrze	11134	11134
woda	11035	10867
pierwszy	11000	10350
ręka	10990	10891
serce	10964	10964
inny	10836	10842
jeszcze	10795	10795
rzec	10733	10834
nic	10707	10694
książę	10467	8234
barzo	10462	10457
także	10391	10391
wojsko	10224	10190
ku	10046	10046
zły	9899	9470
kościół	9739	9739
raz	9473	9482
oko	9449	9368
dom	9131	9056
według	9078	9078
teraz	9064	9064
cały	9027	8976
mały	8946	8611
jednak	8892	8892
prawo	8886	8945
trzy	8879	8814
strona	8862	9984
ojciec	8861	8439
niech	8818	8818
głowa	8805	8494
słowo	8755	8723
ciało	8754	8754
stary	8582	8006
złoty	8564	8401
lecz	8508	8477
sposób	8472	8336
śmierć	8429	8429
dużo	8163	7427
wy	7955	7955
koń	7953	7837
polski	7935	7293
musieć	7923	7869
ów	7861	7344
dawać	7796	7776
przyjść	7717	7575
zaraz	7428	7415
niebo	7384	7382
różny	7365	7301
brać	7352	7120
prosić	7296	7251
potrzeba	7221	7138
góra	7213	7021
kazać	7086	7021
więc	7081	7081
nowy	7080	6759
imć	7040	3001
między	7026	7026
zwać	7022	6994
droga	6942	6776
choć	6898	6898
pisać	6785	6549
sprawa	6647	6602
boży	6635	6548
bywać	6617	6557
zawsze	6570	6570
dusza	6553	6345
trzeci	6539	6404
niż	6536	6509
trzeba	6486	6486
tysiąc	6473	6466
jeżeli	6455	6455
imię	6415	3496
krew	6337	6298
morze	6301	6262
ogień	6273	6240
pański	6256	5831
bardzo	6230	6231
miłość	6229	6229
lubo	6139	6137
rozumieć	6025	5909
mało	5933	5834
powinien	5920	5852
daleko	5872	5911
czy	5871	5871
powiedzieć	5833	5845
koniec	5827	5731
znać	5722	5703
sejm	5689	5678
cesarz	5639	5192
wiara	5635	5625
żyć	5630	5364
wojna	5600	5317
ksiądz	5581	7656
siła	5519	5510
brat	5468	5578
cnota	5395	5133

Pełna lista frekwencyjna lematów