Na potrzeby projektu stworzona została lista frekwencyjna lematów (form podstawowych) wyrazów występujących w korpusie. Z obu wersji korpusu – otagowanej przez tagery Toygger oraz Concraft – oddzielnie wydobyte zostały wszystkie lematy wraz z informacją o frekwencji. Pominięto jedynie elementy oznakowane jako obce, znaki interpunkcyjne lub liczby. Przy podliczaniu frekwencji braliśmy pod uwagę jedynie postać lematu (formy podstawowej), zatem np. frekwencja spójnika żeby i partykuły żeby podliczona została łącznie. Decyzja taka została podyktowana tym, że dla wielu wyrazów, zwłaszcza nieodmiennych, interpretacja co do klasy fleksyjnej bywa w wielu kontekstach dyskusyjna. Następnie zostały one połączone w jedną listę, na której w dwóch kolumnach zachowaliśmy informację o frekwencji w obu wersjach korpusu. Na tak utworzonej liście znalazło się 286 980 lematów. Wiele z nich było jednak rezultatem różnorakich błędów, zatem lista wymagała dalszej edycji, która zostanie opisana w kolejnym podpunkcie.
Poniżej przedstawiamy najczęstsze 200 lematów korpusu wraz z ich frekwencją w dwóch wersjach korpusu: otagowanej tagerem Toygger oraz otagowanej tagerem Concraft. Frekwencja dla poszczególnych wyrazów w tych dwóch wersjach korpusu może się różnić, gdyż niektóre segmenty zostały różnie zinterpretowane przez oba tagery i przypisane do różnych form podstawowych. Na przykład we fragmencie:
Wniosł w sądzie niniejszym ilację alias zalił się wójt pomieniony na Stanisława Ogorzalka, który porwał się do kija na wójta, jako się pokazało, zaczym popada winę grzywien 2, grzywna jedna na wosk do kościoła tutejszego, i plag 30 postronkiem sąd nasz przykazuje in instanti.
wyróżniony segment winę został przez Toygger zinterpretowany jako forma rzeczownika wina, a przez Concraft – jako forma czasownika winąć.
Lematy są posegregowane domyślnie według frekwencji w wersji otagowanej tagerem Toygger.
Zgodnie z przyjętymi przez nas założeniami lista frekwencyjna form podstawowych w korpusie powinna odzwierciedlać zasady hasłowania przyjęte w Elektronicznym słowniku języka polskiego XVII i XVIII w. Na ile było to możliwe, należało więc pominąć lematy, które nie stanowiłyby jednostki słownikowej, a także interpretacje błędne. Lematy są, rzecz jasna, w postaci transkrybowanej, nie transliterowanej (więcej na temat transliteracji i transkrypcji zob. w zakładce „Instrukcja”).
Jak już zostało wspomniane, przy jej tworzeniu pominięte zostały zatem wyrazy oznaczone jako obce (w językach obcych), znaki interpunkcyjne oraz liczby (także rzymskie).
Spośród wyodrębnionych w ten sposób 286 980 lematów 6198 zawierało znaki spoza polskiego alfabetu, co wskazywało, że prawdopodobnie nie są to prawidłowo wskazane formy podstawowe leksemów polskich. Znalazły się tu znaki interpunkcyjne i symbole (np. lematy to_jest, arcy-biskup, w-tobie, k'myśli, po-, bę-, otwierał', ś^o^, G**, \), cyfry (np. 6-funtowy, ½, niesie1318), a także litery alfabetów innych języków (np. jɛy, εkstractu, až). Jak widać, znalazły się tu rozwiązania skrótów (to_jest) oraz same skróty, nierozwiązane celowo bądź omyłkowo (G**, ś^o^). Wiele jest przymiotników zapisanych z użyciem cyfr (6-funtowy). Poza tym wśród tych lematów są rezultaty nieprawidłowej segmentacji lub transkrypcji (wyrazy urwane: po-, bę-, doczepienie znaku interpunkcyjnego do wyrazu: otwierał', zbitki typu k’myśli, w-tobie, niesie1318, które powinny były być rozdzielone, brak uwspółcześnienia zapisu typu arcy-biskup), rzadziej innych błędów nieuniknionych na różnych etapach pracy nad tak dużym materiałem. Spośród tego rodzaju lematów pozostawiliśmy na liście jedynie partykuły +ż, +że oraz przysłówek +kroć, które znajdują się w bazie analizatora morfologicznego Korbeusz. Po usunięciu 6195 form zawierających znaki spoza polskiego alfabetu na liście pozostało 280 785 lematów.
Następnie z listy usunięto 214 600 lematów, które zostały przypisane przez tagery segmentom nierozpoznanym przez analizator morfologiczny Korbeusz. W takich przypadkach niezmiernie rzadko lemat był tożsamy z formą podstawową wyrazu polskiego. Znacznie częściej była to jakaś forma zależna leksemu niewystępującego jeszcze w bazie analizatora morfologicznego lub zawierająca jakiś błąd w zapisie. Jeśli bowiem jakiś segment nie został rozpoznany przez analizator Korbeusz, tagery zgadywały interpretację, wykorzystując schematy wyuczone na materiale znakowanym ręcznie. Jako lemat przypisywana była wówczas niezmieniona postać segmentu. Tego rodzaju błędy mogły wynikać choćby z zastosowania w trakcie transkrypcji (błędnie) innych zasad niż te stosowane w bazie Korbeusza. Stąd np. segmentowi materyjej przypisany został błędny lemat materyjej (Korbeusz nie zawiera schematu odmiany leksemu materyja, a jedynie materia). Forma materyjej nie jest pożądana na liście frekwencyjnej, gdyż w rzeczywistości wszystkie zinterpretowane w ten sposób segmenty powinny otrzymać lemat materia, który już znalazł się na liście frekwencyjnej w innym miejscu. Z tych powodów postanowiliśmy wszystkie lematy nierozpoznawane przez Korbeusza usunąć z prezentowanej listy frekwencyjnej; wyszukanie wśród nich prawdziwych kandydatów na hasła słownikowe będzie dalszym, czasochłonnym zadaniem, którego nie obejmował niniejszy projekt. Większość z nich to lematy (a właściwie ciągi znaków) występujące w korpusie rzadko lub bardzo rzadko. W pierwszym tysiącu na liście frekwencyjnej są jedynie 3 takie lematy, w kolejnym tysiącu jest ich 5, w trzecim – 4, a w czwartym – 8. Dopiero dalej ich zagęszczenie na liście zaczyna się stopniowo zwiększać. Ponad połowa z nich to lematy o pojedynczej frekwencji. Zatem pomimo że jest ich stosunkowo dużo na liście lematów, to w całym korpusie odsetek segmentów zlematyzowanych w ten sposób jest stosunkowo niewielki.
Po odrzuceniu omówionych lematów uzyskaliśmy listę zawierającą 66 185 pozycji. Wydawać by się mogło, że w korpusie bardzo wiele wyrazów zostało rozpoznanych błędnie – ponad 220 tys. lematów usunięto z listy frekwencyjnej. A jednak zlematyzowane w ten sposób segmenty stanowią zaledwie 4% wszystkich segmentów korpusu.
Pozostawiliśmy na liście frekwencyjnej lematy rozpoczynające się wielką literą, gdyż współtworzą one faktyczną zawartość korpusu, zwłaszcza jeśli chodzi o początkową część listy. Lematów mających co najmniej pierwszą literę wielką jest na omawianej liście 14 595 (w sumie było ich znacznie więcej, lecz zostały one odrzucone w przedstawionych powyżej krokach). Nie zaskakuje, że najczęstszy jest tu wyraz Bóg. Poza tym przeważają nazwy własne i nazwy narodowości (np. Chrystus, Turek, Polak, Wojciech, Marcin, Mahomet, Rzeczpospolita, Lwów, Potocki, Jowisz, Pegaz), jest też trochę zapisów zinterpretowanych jako współczesne skrótowce (np. BC, SA, CD). W tej grupie dość licznie trafiają się rzeczowniki pospolite nieprawidłowo zinterpretowane jako nazwiska (stąd np. na liście frekwencyjnej znajdują się dwa lematy Zwada i zwada zamiast jednego zwada). Jednak z reguły mają one niską frekwencję.
Ostatecznie otrzymaliśmy listę liczącą 66 185 lematów, a poniżej prezentujemy pierwsze 200.
Uwaga: przy wyszukiwaniu wybranych lematów w korpusie należy pamiętać, aby wybrać opcję “odrzuć obce segmenty”. W przeciwnym razie wynik niejednokrotnie będzie wyższy od tego podanego na liście frekwencyjnej.
Lemat | Liczba wystąpień - Toygger | Liczba wystąpień - Concraft |
---|---|---|
i | 368873 | 368666 |
być | 262116 | 261846 |
w | 246195 | 246196 |
z | 219308 | 213025 |
on | 214170 | 212091 |
się | 184744 | 184744 |
na | 184692 | 184692 |
nie | 182146 | 182785 |
ten | 147993 | 148927 |
to | 117827 | 114197 |
który | 117419 | 117419 |
do | 113801 | 113455 |
a | 113550 | 111727 |
mieć | 85040 | 84448 |
co | 73163 | 73186 |
swój | 69302 | 68799 |
że | 67147 | 67147 |
od | 58168 | 58101 |
tak | 57176 | 57164 |
o | 54757 | 54976 |
jako | 53898 | 53887 |
za | 47162 | 47162 |
ja | 46430 | 46265 |
pan | 45694 | 45476 |
wielki | 43846 | 29877 |
po | 43792 | 43734 |
mój | 41790 | 29601 |
ale | 38635 | 38619 |
by | 37857 | 37857 |
móc | 35210 | 35070 |
siebie | 34296 | 34139 |
gdy | 32551 | 32551 |
sam | 32194 | 32110 |
jeden | 31753 | 31763 |
aby | 29185 | 29185 |
przez | 27463 | 27463 |
bo | 27431 | 27431 |
dla | 27113 | 27113 |
albo | 26860 | 26896 |
też | 26661 | 26661 |
król | 26616 | 22506 |
Bóg | 25825 | 24487 |
ty | 25470 | 25695 |
człowiek | 25069 | 25030 |
drugi | 24981 | 24458 |
rok | 24316 | 24081 |
dać | 23348 | 22725 |
my | 23307 | 23305 |
chcieć | 22842 | 22781 |
już | 22553 | 22553 |
tylko | 22358 | 22146 |
nasz | 20809 | 18555 |
dzień | 20557 | 18086 |
przy | 20362 | 20362 |
czas | 20316 | 19845 |
+ż | 20176 | 20176 |
tam | 19944 | 19907 |
pod | 19739 | 19739 |
iż | 19687 | 19687 |
kto | 18868 | 18820 |
wszystek | 18384 | 18338 |
u | 18320 | 18312 |
dobry | 18151 | 17472 |
święty | 17927 | 17474 |
taki | 17894 | 17794 |
twój | 17762 | 17426 |
rzecz | 17747 | 17491 |
miasto | 17325 | 28170 |
jak | 17131 | 17099 |
nad | 17100 | 18689 |
żeby | 16932 | 16932 |
mówić | 16925 | 16784 |
gdzie | 16875 | 16875 |
tedy | 16788 | 16616 |
wszytek | 16778 | 15702 |
kiedy | 16551 | 16531 |
zaś | 16059 | 16059 |
widzieć | 15748 | 15663 |
tu | 15460 | 15460 |
dwa | 15434 | 15434 |
czynić | 15151 | 15114 |
każdy | 14950 | 14950 |
ani | 14919 | 14905 |
inszy | 14855 | 14601 |
+że | 14711 | 14711 |
wiele | 14596 | 14596 |
ziemia | 14434 | 14396 |
bez | 13992 | 13605 |
jaki | 13743 | 13631 |
przed | 13230 | 13230 |
wziąć | 13006 | 12829 |
miejsce | 12992 | 12993 |
świat | 12831 | 12539 |
abo | 12489 | 12489 |
część | 12271 | 12279 |
iść | 12211 | 12164 |
syn | 12210 | 10852 |
jeśli | 12193 | 12193 |
wiedzieć | 11854 | 11846 |
aż | 11761 | 11761 |
żaden | 11700 | 11700 |
stać | 11587 | 11145 |
uczynić | 11294 | 11294 |
potym | 11246 | 11246 |
dobrze | 11134 | 11134 |
woda | 11035 | 10867 |
pierwszy | 11000 | 10350 |
ręka | 10990 | 10891 |
serce | 10964 | 10964 |
inny | 10836 | 10842 |
jeszcze | 10795 | 10795 |
rzec | 10733 | 10834 |
nic | 10707 | 10694 |
książę | 10467 | 8234 |
barzo | 10462 | 10457 |
także | 10391 | 10391 |
wojsko | 10224 | 10190 |
ku | 10046 | 10046 |
zły | 9899 | 9470 |
kościół | 9739 | 9739 |
raz | 9473 | 9482 |
oko | 9449 | 9368 |
dom | 9131 | 9056 |
według | 9078 | 9078 |
teraz | 9064 | 9064 |
cały | 9027 | 8976 |
mały | 8946 | 8611 |
jednak | 8892 | 8892 |
prawo | 8886 | 8945 |
trzy | 8879 | 8814 |
strona | 8862 | 9984 |
ojciec | 8861 | 8439 |
niech | 8818 | 8818 |
głowa | 8805 | 8494 |
słowo | 8755 | 8723 |
ciało | 8754 | 8754 |
stary | 8582 | 8006 |
złoty | 8564 | 8401 |
lecz | 8508 | 8477 |
sposób | 8472 | 8336 |
śmierć | 8429 | 8429 |
dużo | 8163 | 7427 |
wy | 7955 | 7955 |
koń | 7953 | 7837 |
polski | 7935 | 7293 |
musieć | 7923 | 7869 |
ów | 7861 | 7344 |
dawać | 7796 | 7776 |
przyjść | 7717 | 7575 |
zaraz | 7428 | 7415 |
niebo | 7384 | 7382 |
różny | 7365 | 7301 |
brać | 7352 | 7120 |
prosić | 7296 | 7251 |
potrzeba | 7221 | 7138 |
góra | 7213 | 7021 |
kazać | 7086 | 7021 |
więc | 7081 | 7081 |
nowy | 7080 | 6759 |
imć | 7040 | 3001 |
między | 7026 | 7026 |
zwać | 7022 | 6994 |
droga | 6942 | 6776 |
choć | 6898 | 6898 |
pisać | 6785 | 6549 |
sprawa | 6647 | 6602 |
boży | 6635 | 6548 |
bywać | 6617 | 6557 |
zawsze | 6570 | 6570 |
dusza | 6553 | 6345 |
trzeci | 6539 | 6404 |
niż | 6536 | 6509 |
trzeba | 6486 | 6486 |
tysiąc | 6473 | 6466 |
jeżeli | 6455 | 6455 |
imię | 6415 | 3496 |
krew | 6337 | 6298 |
morze | 6301 | 6262 |
ogień | 6273 | 6240 |
pański | 6256 | 5831 |
bardzo | 6230 | 6231 |
miłość | 6229 | 6229 |
lubo | 6139 | 6137 |
rozumieć | 6025 | 5909 |
mało | 5933 | 5834 |
powinien | 5920 | 5852 |
daleko | 5872 | 5911 |
czy | 5871 | 5871 |
powiedzieć | 5833 | 5845 |
koniec | 5827 | 5731 |
znać | 5722 | 5703 |
sejm | 5689 | 5678 |
cesarz | 5639 | 5192 |
wiara | 5635 | 5625 |
żyć | 5630 | 5364 |
wojna | 5600 | 5317 |
ksiądz | 5581 | 7656 |
siła | 5519 | 5510 |
brat | 5468 | 5578 |
cnota | 5395 | 5133 |