Korba - O korpusie

O korpusie

Wstęp

Elektroniczny Korpus Tekstów Polskich XVII i XVIII w., w skrócie nazywany KorBą¹, jest najważniejszym rezultatem dwóch projektów realizowanych w latach 2013-2018 oraz 2018-2023 przez Pracownię Historii Języka Polskiego XVII i XVIII w. Instytutu Języka Polskiego PAN we współpracy z Zespołem Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki PAN. Dane dotyczące każdego z tych projektów znajdują się w zakładkach „Projekt KORBA 1” i „Projekt KORBA 2”.

W 2018 r została udostępniona pierwsza wersja korpusu, obejmująca teksty z lat 1601-1772 i zawierająca prawie 13,5 miliona segmentów (w rozumieniu przyjętym przez twórców Narodowego Korpusu Języka Polskiego, dalej: NKJP). Obecnie prezentowany korpus obejmuje swoim zasięgiem okres pełnych dwóch stuleci, a jego objętość została zwiększona do niemal 27 milionów segmentów. W ramach drugiego z wymienionych projektów korpus został zintegrowany z innymi źródłami do badań polszczyzny XVII i XVIII w., a mianowicie z Elektronicznym słownikiem języka polskiego XVII i XVIII w. (e-SXVII), zdigitalizowaną kartoteką tego słownika oraz Cyfrową Biblioteką Druków Ulotnych Polskich i Polski Dotyczących z XVI, XVII i XVIII Wieku (CBDU). Powstał również portal Polszczyzna XVII i XVIII wieku. Słowniki, korpusy, źródła, który umożliwia jednoczesne przeszukiwanie wszystkich tych zasobów.

Dane zgromadzone w KorBie są dostępne za pomocą wyszukiwarki MTAS wykorzystującej język zapytań o nazwie Corpus Query Language (CQL). Język ten pozwala na wyszukiwanie pojedynczych segmentów lub ich sekwencji, których postać można szczegółowo określić, używając przypisanych każdemu segmentowi atrybutów. Użytkownicy mogą skorzystać z konstruktora zapytań, który umożliwia zastąpienie symboli CQL znanymi terminami gramatycznymi. Teksty prezentowane są w formie transkrypcji i transliteracji. Bogate metadane, znakowanie strukturalne i językowe oraz anotacja morfosyntaktyczna i lematyzacja dają możliwość zadawania różnorakich zapytań, filtrowania wyników oraz ich lokalizacji w źródle z dokładnością do numeru strony. Szczegółowy opis możliwości wyszukiwarki i języka zapytań MTAS znajduje się w zakładce „Instrukcja”.

Fragment lub fragmenty każdego tekstu zgromadzonego w pełnym korpusie KorBa znajdują się również w podkorpusie anotowanym ręcznie (KorBa ręczna 2.0; do końca roku 2025 udostępniamy również poprzednią wersję, czyli KorBę ręczną 1.0). KorBa ręczna 2.0 zawiera łącznie 850 000 segmentów. Podkorpus ten ma dwojakie zastosowanie. Po pierwsze, posłużył on do wytrenowania tagera KFTT, który został wykorzystany do automatycznej anotacji całości korpusu. Po drugie, podkorpus anotowany ręcznie ma być zasobem wzorcowym, jeśli chodzi o transkrypcję oraz anotację morfosyntaktyczną, a zatem przeznaczonym do analizy trudniejszych zjawisk językowych.

Prezentowany tu zasób jest próbą zbudowania relatywnie dużego korpusu dawnych tekstów polskich, który spełnia wymagania stawiane dziś przed takimi zasobami i przeznaczony jest do wielokierunkowych badań. Korpus nasz daje dostęp do dziedzictwa narodowego epoki baroku i Oświecenia, w szczególności ułatwia zapoznanie się z ewolucją języka ojczystego. Najważniejsze jednak jest to, że korpus stanowi nowe narzędzie badawcze przydatne w różnych dziedzinach humanistyki, np. w językoznawstwie, literaturoznawstwie, kulturoznawstwie, historii, socjologii. Ułatwia on bowiem przeszukiwanie i analizę dawnych polskich tekstów.

KORBA NA TLE INNYCH POLSKICH KORPUSÓW

Do roku 2013 doświadczenia w tworzeniu korpusów tekstowych języka polskiego ograniczały się w znacznym stopniu do korpusów tekstów współczesnych. Jak wiadomo, prace nad nimi były przez długi czas rozproszone. Ostatecznie jednak w latach 2007-2012 dzięki wspólnej inicjatywie Instytutu Podstaw Informatyki PAN (który był koordynatorem projektu), Instytutu Języka Polskiego PAN, Wydawnictwa Naukowego PWN oraz Zakładu Językoznawstwa Komputerowego i Korpusowego Uniwersytetu Łódzkiego, zrealizowanej jako projekt badawczy rozwojowy Ministerstwa Nauki i Szkolnictwa Wyższego, powstał Narodowy Korpus Języka Polskiego. NKJP jest obecnie największym korpusem języka polskiego (w zasadzie tekstów polskich), ale jest to korpus zawierający z założenia teksty względnie współczesne.

KorBa pomyślana została jako swego rodzaju uzupełnienie historyczne – pierwszy etap poszerzania korpusu narodowego o teksty dawne. Mamy nadzieję, że w niedalekiej przyszłości uda się stworzyć korpusy historyczne obejmujące całą dobę piśmienną dawnej polszczyzny. Korpusy takie zaczęły już powstawać. Istnieje tzw. korpus tekstów staropolskich (do 1500 r.) stworzony w Instytucie Języka Polskiego PAN, jednak na razie nie zawiera on żadnych anotacji (ani strukturalnych, ani morfosyntaktycznych), nie jest też wyposażony w wyszukiwarkę. Korpus ten stanowi dobry punkt wyjściowy do stworzenia korpusu staropolskiego w rozumieniu dziś powszechnie przyjmowanym. Prace nad stworzeniem takiego korpusu trwają w zespole kierowanym przez Ewę Deptuchową (por. Klapper, Kołodziej 2014; Klapper, Kołodziej 2015; Deptuchowa i in. 2020). Pierwszy korpus dawnych tekstów polskich, spełniający standardy przyjmowane dziś przy tworzeniu takich zasobów, powstał na potrzeby dużego międzynarodowego projektu IMPACT (Improving Access to Texts). Korpus ten został zbudowany w latach 2009-2012 w Katedrze Lingwistyki Formalnej Uniwersytetu Warszawskiego przez zespół pod kierunkiem prof. Janusza S. Bienia. Cechą charakterystyczną tego korpusu jest wynikająca z celów całego projektu niezwykła wierność transliteracji – rozróżniane są w nim wszystkie kształty grafemów występujące w tekstach podstawowych (Bień 2014)². W latach 2013-2016 w Instytucie Języka Polskiego Uniwersytetu Warszawskiego powstał stosunkowo niewielki korpus tekstów XIX-wiecznych³ (dokładniej z lat 1830-1918). W Instytucie Badań Literackich PAN zaczął powstawać także korpus polskich tekstów XVI-wiecznych. Oprócz korpusów, które tak jak wyżej wymienione spełniają wymogi reprezentatywności i zrównoważenia (lub przynajmniej dążą do ich realizacji), powstają również tzw. korpusy oportunistyczne, do których włącza się każdy dostępny tekst. Do takich korpusów należy PolDiLemma gromadzący teksty z XVI, XVII i XVIII w. oraz Korpus tekstów XIX wieku, obejmujący okres 1800-1933.

Obecnie, tzn. na początku roku 2024, kiedy udostępniamy dwukrotnie powiększony Elektroniczny Korpus Tekstów Polskich z XVII i XVIII Wieku, istnieje znacznie więcej korpusów gromadzących dawne polskie teksty⁴ (m.in. e-Rotha, czyli Elektroniczne Repozytorium Rot Wielkopolskich), ale w dalszym ciągu to właśnie KorBa jest najobszerniejszym i najlepiej opracowanym korpusem dawnej polszczyzny. Być może w nieodległej przyszłości powstanie planowany już od kilku lat Narodowy Korpus Diachroniczny Polszczyzny, a wtedy KorBa stanie się jego częścią (por. Król i in. 2019).

Standardy polskiego językoznawstwa korpusowego zostały w znacznym stopniu wyznaczone przez twórców NKJP. Na potrzeby budowania i obsługi oraz korzystania z NKJP powstały też odpowiednie narzędzia informatyczne. Oczywiste więc jest to, że w projekcie KorBa wzorowaliśmy się na NKJP przy tworzeniu analogicznych narzędzi oraz konstruowaliśmy korpus tak, by w przyszłości był on możliwie zgodny z NKJP pod względem przyjętych w nim rozstrzygnięć lingwistycznych i inżynierskich. W szczególności staraliśmy się zachować jak największą zbieżność z NKJP pod względem systemu znakowania morfosyntaktycznego. Z oczywistych powodów niemożliwe jednak było zastosowanie w korpusie tekstów dawnych takiego samego zestawu znaczników, jaki był stosowany w korpusie tekstów współczesnych. Pewne zmiany musiały zostać wprowadzone, ponieważ polszczyzna XVII- i XVIII-wieczna znała z jednej strony pewne kategorie gramatyczne (lub ich wartości) dziś już niewystępujące, a z drugiej – nie znała jeszcze wszystkich kategorii właściwych współczesnemu językowi polskiemu. Zestaw znaczników morfosynaktycznych szczegółowo przedstawiamy w zakładce „Instrukcja”.

Zasady doboru tekstów

Na etapie prac koncepcyjnych staraliśmy się uwzględniać ogólnie przyjmowane cechy konstytutywne korpusów językowych – reprezentatywność i zrównoważenie. Jednak wobec materiału historycznego raczej można mówić o dążeniu do tych atrybutów. Ostatecznie w doborze tekstów istotną rolę odgrywały różnorakie kryteria, w części także pozajęzykowe.

Zawartość korpusu została zdeterminowana przez ograniczoną wiedzę o rzeczywistym piśmiennictwie epoki (a nie tylko tym zachowanym). Z natury rzeczy znaczącą część zachowanych tekstów stanowią utwory literackie – traktowane z większą uwagą, wielokrotnie wydawane, przekazywane następnym pokoleniom jako element spuścizny kulturowej. Podczas pracy nad korpusem historycznym fakt ten skutkował niemożnością zastosowania reguły przyjmowanej dla wzorcowej budowy korpusu współczesnego, która zakłada jedynie kilkunastoprocentowy udział tekstów literatury pięknej. Istotna przy konstruowaniu korpusu współczesnego wiedza o czytelnictwie jest w odniesieniu do baroku i Oświecenia bardzo ograniczona i opiera się na wnioskowaniu pośrednim. O popularności danego tekstu świadczyć może większa liczba jego wydań, a także potwierdzenia jego znajomości zaczerpnięte z innych zapisów z epoki.

Autorzy korpusu historycznego spotykają się z różnorodnymi ograniczeniami w zakresie dostępu do materiału. Mogą wykorzystać wyłącznie jeden kanał komunikacyjny – źródła pisane, dodatkowo okrojony do tekstów, które zachowały się przez trzysta czy czterysta lat. Jednak materiał historyczny nie jest też pozbawiony swoistych zalet. Badacze dysponują oglądem zbioru zamkniętego, o skończonym procesie rozwoju i ewolucji – korpus współczesny zawsze pozostaje pod tym względem otwarty. Materiał historyczny stwarza również perspektywę badawczą o dużym dystansie czasowym, która ułatwia syntetyczne opracowanie.

Ograniczenia w zakresie dostępności materiału wymusiły na twórcach korpusu wykorzystanie bardzo zróżnicowanych typów źródeł pomimo świadomości, że niektóre z nich są niedoskonałe. Najbardziej pożądane źródła to zachowane teksty z epoki w postaci starodruków i rękopisów. Były to jednakże materiały najtrudniejsze do pozyskania, gdyż wymagały przepisania na komputerze, a to – jak wiadomo – zadanie czasochłonne i kosztowne. W drugiej edycji projektu wspomagaliśmy się modelami do automatycznej analizy pisma ręcznego (ang. Handwritten Text Recognition – HTR), wytrenowanymi do odczytywania tekstów z XVII i XVIII w. Ekscerpowaniu źródeł w postaci oryginalnej sprzyjał znaczący wzrost liczby elektronicznych edycji dzieł zamieszczonych w bibliotekach cyfrowych. Dzięki temu mieliśmy ułatwiony dostęp nie tylko do dzieł już znanych, klasycznych, ale przede wszystkim do rękopisów, rzadkich wydań czy dokumentów przechowywanych w zagranicznych bibliotekach. Pewną część korpusu stanowią transliterowane teksty starodruków, udostępnione nam w postaci elektronicznej przez wykonawców polskiej części międzynarodowego projektu IMPACT (jest to zbiór obejmujący około 1,6 mln segmentów).

W korpusie znalazły się również wydania tekstów barokowych i oświeceniowych pochodzące z czasów późniejszych. Szczególnie dalekie od doskonałości są edycje z XIX wieku (ze względu na przyjęte wówczas standardy znacznych ingerencji wydawcy w publikowane teksty). Włączaliśmy je jednak, bo często były to jedyne zachowane postaci tekstów ciekawych i wartych wprowadzenia do korpusu. Kolejny typ włączanych źródeł to opracowane elektronicznie wydania współczesne tekstów z XVII i XVIII wieku. Pod względem technicznym były one najwygodniejsze, bo z uwagi na elektroniczną formę łatwo można było je umieścić w korpusie. Jednak i w tym wypadku pojawiały się trudności: z jednej strony natury prawnej (ograniczenia wynikające z prawa autorskiego), z drugiej zaś językowo-edytorskiej spowodowane tym, że współcześni wydawcy nierzadko wykorzystują jako podstawę edycji nie jedno, lecz równolegle kilka wydań z epoki. Ogólnie kierowaliśmy się zasadą, że lepszym rozwiązaniem jest włączenie tekstu w formie niepochodzącej z epoki niż pominięcie go w korpusie. Wszystkie źródła opatrzono dokładną informacją bibliograficzną, charakteryzującą również typ źródła (transliterowany rękopis lub druk z epoki czy późniejsze, XIX-, XX- lub XXI-wieczne wydanie).

W celu zachowania zrównoważenia korpusu konieczne stało się przyjęcie zasady, że dłuższe teksty (np. tzw. Biblia gdańska, Zielnik Syreniusza, zbiory kazań Birkowskiego, Młodzianowskiego, Starowolskiego czy podręczniki i rozprawy naukowe z II poł. XVIII w.) zostaną wprowadzone w wybranych fragmentach. W zestawie metadanych widnieje informacja o tym, który fragment został włączony do korpusu.

W doborze tekstów do KorBy zostały uwzględnione następujące płaszczyzny zróżnicowania: chronologia, geografia, gatunki tekstów, tematyka.

Przyjęte kryteria dotyczące zróżnicowania chronologicznego zakładały dążenie do zrównoważonej ilościowo reprezentacji w korpusie czterech podokresów: 1601-1650, 1651-1700, 1701-1750 i 1751-1800. Dodatkowo mieliśmy na uwadze podział na podkorpus barokowy (1601-1740) i oświeceniowy (1741-1800). Oczywiście, przyjęte cezury czasowe są sztuczne i mają charakter wyłącznie porządkujący. Kryterium ilościowe wielokrotnie musiało być też skorygowane przez inne ważne czynniki. Na przykład pierwsza połowa XVII wieku i ostatnia ćwierć wieku XVIII to czas powstania wielu ważnych, kanonicznych dla epoki tekstów, które musiały zostać uwzględnione w korpusie. Z kolei w pierwszych dziesięcioleciach XVIII wieku regresowi kultury towarzyszyło znaczne ograniczenie oryginalnego, interesującego piśmiennictwa. Ówczesny rynek drukarski został zmonopolizowany przez drukarnie zakonne, które w produkcji piśmienniczej były nastawione na realizację własnych celów, dlatego przeważająca część dzieł wydawanych w tym czasie to różnego rodzaju pisma religijne. W różnicowaniu tematyki źródeł z tego okresu pomocne okazało się włączenie tekstów rękopiśmiennych. Były to m.in. romanse, które krążyły między dworami i salonami literackimi jako odpisy publikowanych (bądź nie) tłumaczeń, często autorstwa kobiet. Przykładem jest anonimowa Historia Alkamena króla Scytów i Menalippy królewnej duńskiej, w tłumaczeniu Balbiny Pac z Wołłowiczów. Ponadto w rękopisach pozostawały teksty sejmowe i ogólnie teksty historyczne, jak np. Sumariusz dziejów polskich i cudzoziemskich Antoniego Jana Czeczewicza.

Na etapie równoważenia korpusu zdecydowaliśmy, że źródłom bez daty rocznej expressis verbis wpisanej na karcie tytułowej nie przypisujemy roku ustalonego na podstawie bibliografii i katalogów bibliotecznych, lecz okres przybliżony do dziesięciolecia. Zasadę tę stosowaliśmy nawet w wypadku dramatów wydanych w drugiej połowie XVIII w., na których kartach tytułowych podawano czas wystawienia sztuki, a nie rok publikacji. Tylko w kilku wypadkach dla utrzymania jednoznacznych podziałów chronologicznych na półwiecza oraz na podkorpus barokowy i oświeceniowy nieznacznie zmodyfikowaliśmy tę regułę, zaokrąglając czas wydania do mniej niż dekady, lecz nadal bez jednoznacznego wskazania roku.

Reprezentację chronologiczną tekstów w KorBie przedstawiają poniższe wykresy:

Pod względem zróżnicowania geograficznego zawartość korpusu uwzględnia teksty pochodzące ze wszystkich regionów, w których używano języka polskiego, wyróżnianych zazwyczaj w badaniach historycznych tego okresu. Są to: Mazowsze, Małopolska, Wielkopolska, Ziemie Ruskie, Ziemie Wielkiego Księstwa Litewskiego, Podlasie, Śląsk, Inflanty oraz Pomorze i Prusy. Liczba tekstów z wyodrębnionych regionów włączonych do korpusu pozostaje bardzo zróżnicowana. Stanowi ona w znacznym stopniu odzwierciedlenie aktywności piśmienniczej, a w jeszcze większym stopniu wydawniczej, poszczególnych ośrodków. Należy też wspomnieć o tym, że niektóre źródła mają nieznany region powstania, ponieważ na karcie tytułowej nie miały informacji o miejscu wydania. Z kolei region „inny” przypisaliśmy tekstom, które miały podwójne miejsce wydania: Warszawę i Lwów.

Warto odnotować, że po wnikliwej kwerendzie ujednoliciliśmy nazwy drukarni. Podawanie nazw domów wydawniczych w wersji oryginalnie wpisanej na karcie tytułowej mogło być mylące, dlatego poszczególne drukarnie zostały zidentyfikowane jako pojedyncze podmioty korporatywne, a następnie przypisano im uwspółcześnione nazwy według jednolitego kodu. Dzięki temu zapisy: „U XX. Schol Piarum” oraz „Drukarnia Akademii Pijarów” są identyfikowane jako jeden ośrodek wydawniczy: „Drukarnia Pijarów”. Także „Typografia Bractwa św. Trójcy”, „Drukarnia św. Trójcy” i „U OO. Trynitarzy” zyskały jedną wspólną nazwę: „Drukarnia Trynitarzy”. Efektem tego zabiegu jest ponadto upodmiotowienie kobiet, które po śmierci mężów samodzielnie prowadziły drukarnie. Na kartach tytułowych widnieją one jako bezimienne wdowy, natomiast w korpusie są przedstawione imieniem i nazwiskiem, np. zapis „U Wdowy Jana Rossowskiego” otrzymał etykietę „Drukarnia Katarzyny Rossowskiej”.

Zróżnicowanie geograficzne tekstów w KorBie ilustruje poniższa mapa:

Zróżnicowanie gatunkowe to kolejne kryterium doboru tekstów. Współcześnie wykorzystywane do konstruowania korpusów genologie i typologie tekstów nie przystają dokładnie do potrzeb materiału historycznojęzykowego. Z tego względu konieczne stało się przygotowanie typologii spełniającej wymagania KorBy. Jest to konstrukcja kilkupoziomowa.

Na najwyższym poziomie rozdzielone zostały teksty wierszowane (zawierają 16,53% segmentów zgromadzonych w korpusie), niewierszowane (80,63% segmentów) i mieszane (2,85% segmentów). Informacja na ten temat to ważny element charakterystyki tekstu włączanego do korpusu, choćby ze względu na to, że rytm i rym wiersza mogą mieć wpływ na formę fleksyjną wyrazu wyszukiwanego w korpusie przez użytkownika.

Druga przyjęta płaszczyzna to rozróżnienie literatury pięknej i tekstów nieliterackich (niebeletrystycznych). W obrębie literatury pięknej zastosowano dalszy wewnętrzny podział, zgodny z tradycją, na epikę, lirykę i dramat oraz utwory synkretyczne. Oczywiście w tych klasach znajdą się teksty reprezentujące gatunki literackie charakterystyczne dla piśmiennictwa barokowego i oświeceniowego. Szczegółowa klasyfikacja tekstów nieliterackich koresponduje z typologią przyjętą w NKJP w zakresie możliwym do zastosowania wobec tekstów dawnych. Wobec niemożności kategorycznego i jednoznacznego przyporządkowania Pisma Świętego zdecydowaliśmy o odrębnym traktowaniu tekstu Biblii.

Podczas rozszerzania korpusu dokonaliśmy kilku zmian, które w bardziej uporządkowany i zrównoważony sposób grupują teksty źródłowe według ich gatunków. Jedną ze zmian było połączenie gatunków o wymowie funeralnej w jedną kategorię „treny, lamenty”. Ze względu na obecność różnego typu poematów zrezygnowaliśmy z wyróżniania osobno poematów epickich, heroikomicznych czy filozoficznych i zgrupowaliśmy je w ogólnej kategorii „poematy”. Uporządkowaliśmy też kategorie zbyt ogólne lub krzyżujące się z innymi, np. „przywileje i akty nadania”, „intercyzy”, „umowy” podzieliliśmy na „umowy cywilne” oraz „akty prawne”; z kolei „traktaty” i „wykłady” zmieniliśmy na „rozprawy naukowe”. Ponadto uzupełnienia materiału źródłowego, zwłaszcza z końca XVIII w., pociągnęły za sobą konieczność dodania nowych gatunków, takich jak: „dramy”, „powieści”, „obwieszczenia”, „odezwy”.

Naszą intencją było pokazanie jak największej różnorodności gatunkowej odzwierciedlającej stan ówczesnego piśmiennictwa. Dlatego m.in. wyróżniliśmy „jasełka” jako szczególny rodzaj utworów dramatycznych. Ale z kolei „pieśń” rozumieliśmy szeroko, bardziej jako typ tekstu, tak jak była ona postrzegana w XVII i XVIII w. (Dobak 1991: 396). Rezultatem prac jest zwięzła lista gatunków, które jednak mają różny stopień szczegółowości.

Należy też wspomnieć, że ze względów technicznych obowiązywała nas konieczność wyboru tylko jednej kategorii gatunkowej dla każdego tekstu. W wypadku zbiorów drobnych utworów zawierających teksty różnego gatunku, np. sonety i sielanki, wyznaczyliśmy nową kategorię „różne liryczne”.

Szczegółowa lista rodzajów i gatunków prezentuje się następująco:

rodzaj	gatunki
epika	bajki, poematy, powieści, przypowieści i specula (zwierciadła), romanse, żywoty świętych
liryka	dumy, emblematy, epitalamia, kolędy i pastorałki, fraszki i epigramaty, ody, panegiryki, pieśni, psalmy, różne liryczne, sonety, treny i lamenty, zagadki
dramat	dialogi, dramy, intermedia, jasełka, komedie, libretta i scenariusze, tragedie
utwory synkretyczne	anegdoty, satyry, sielanki
teksty naukowo-dydaktyczne lub informacyjno-poradnikowe	encyklopedie i kompendia, kalendarze, katechizmy, podręczniki, poradniki, przepisy kucharskie, regulaminy i instrukcje, rozmówki do nauki języka, rozprawy naukowe
teksty perswazyjne	kazania, księgi liturgiczne, modlitwy, mowy polityczne, odezwy, pisma polityczne i społeczne, pisma religijne, mowy okolicznościowe, przysłowia, teksty wstępne
literatura faktograficzna	biografie, herbarze, kroniki, opisy geograficzne i przewodniki, opisy podróży, pamiętniki, relacje
teksty urzędowo-kancelaryjne	akta sejmikowe, akty prawne, diariusze sejmowe, inwentarze, konstytucje sejmowe, księgi sądowe, listy urzędowe, obwieszczenia, pisma sądowe, inne teksty sejmowe, testamenty, umowy cywilne, wilkierze
wiadomości prasowe i druki ulotne	wiadomości prasowe
listy	listy
Biblia	Biblia

Poniższe podsumowanie ilustruje zawartość procentową segmentów korpusu w wyróżnionych rodzajach tekstów:

Założeniem obowiązującym przy budowaniu korpusu było dążenie do odzwierciedlenia tematyki obecnej w piśmiennictwie epoki. Szczególnie ważne zadanie stanowiła rejestracja słownictwa odnoszącego się do dziedzin ówcześnie popularnych, a obecnie peryferyjnych (np. alchemia, astrologia, zielarstwo). Istotne było również uchwycenie początków zaciekawienia nowymi prądami myślowymi czy dyscyplinami (jak awiacja, hutnictwo czy socjologia). W efekcie w zestawieniu kategorii tematycznych znajdują się pozycje bardziej ogólne (np. obyczajowość, sprawy społeczne, nauka), ale też ściśle specjalistyczne (np. myślistwo, anatomia, garbarstwo).

W odczuciu twórców Elektronicznego Korpusu Tekstów Polskich z XVII i XVIII w. dokumenty zgromadzone w obu edycjach korpusu dobrze odzwierciedlają piśmiennictwo epoki baroku i Oświecenia. W odpowiedni sposób pokazują zarówno zainteresowania tematyczne, jak i nasilenie zaciekawienia pewnymi gatunkami w danym czasie, a przy tym nie ignorują obecności gatunków, które były mniej reprezentowane.

Bibliografia

Bień, J.S., 2014. The IMPACT project Polish Ground-Truth texts as a DjVu corpus. „Cognitive Studies | Études Cognitives” (14). s. 75–84.
Deptuchowa E., Jasińska K., Klapper M., Kołodziej D., 2020. O projekcie Korpusu Polszczyzny do 1500 roku, „Poradnik Językowy”, z. 8, s. 7–16.
Dobak, A., 1991. Pieśń, [w:] T. Kostkiewiczowa (red.), Słownik literatury polskiego oświecenia, Zakład Narodowy im. Ossolińskich, Wrocław – Warszawa – Kraków s. 395–400.
Gruszczyński, W., 2020. Korpusy językowe narzędziem pracy historyka języka, [w:] A. Hącia, K. Kłosińska, P. Zbróg (red.), Polszczyzna w dobie cyfryzacji, Wydawnictwo PAN, Warszawa, s. 255–265. DOI: 10.24425/137351
Klapper M., Kołodziej D., 2014. Elektroniczny Korpus Tekstów Staropolskich do 1500 r. Perspektywy i problemy, „Prace Filologiczne”, nr 65, s. 203–210.
Klapper M., Kołodziej D., 2015. Elektroniczny Tezaurus Rozproszonego Słownictwa Staropolskiego do 1500 roku. Perspektywy i problemy, „Polonica”, nr 35, s. 87–101. https://polonica.ijp.pan.pl/index.php/polonica/article/view/76.
Król, M., Derwojedowa, M., Górski, R.L., Gruszczyński, W., Opaliński, K., Potoniec, P., Woliński, M., Kieraś, W., Eder, M., 2019. Narodowy Korpus Diachroniczny Polszczyzny. Projekt, „Język Polski” XLIX, s. 92–101.
Pastuch, M., Duda, B., Lisczyk, K., Mitrenga, B., Przyklenk, J., Sujkowska-Sobisz, K., 2018. Digital Humanities in Poland from the Perspective of the Historical Linguist of the Polish Language: Achievements, Needs, Demands, „Digital Scholarship in the Humanities”, t. 33(4), s. 857–873. https://doi.org/10.1093/llc/fqy008

Przypisy

Skrót KorBa jest akronimem wyrażenia Korpus Barokowy, określenia używanego w pierwszym etapie tworzenia korpusu, kiedy zgromadzone w nim były głównie teksty pochodzące z epoki baroku. Obecnie korpus obejmuje teksty z dwóch epok, baroku i Oświecenia, zachowaliśmy jednak dawny skrót ze względu na jego rozpowszechnienie w środowisku naukowym.
Korpus dostępny jest obecnie pod poniższymi adresami: https://szukajwslownikach.uw.edu.pl/IMPACT_GT_1/ i https://szukajwslownikach.uw.edu.pl/IMPACT_GT_2/.
Por.: http://www.f19.uw.edu.pl/ i https://szukajwslownikach.uw.edu.pl/f19/.
O niektórych z nich można znaleźć informacje w tekstach (Gruszczyński 2020) czy (Pastuch i in. 2018).