O korpusie


Wstęp

Elektroniczny Korpus Tekstów Polskich XVII i XVIII w. (do 1772 r.), w skrócie nazywany KorBą (akronim wyrażenia Korpus Barokowy), jest najważniejszym rezultatem projektu realizowanego w latach 2013-2018 przez Pracownię Historii Języka Polskiego XVII i XVIII w. Instytutu Języka Polskiego PAN we współpracy z Zespołem Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki PAN (dane dotyczące tego projektu znajdują się w zakładce „Projekt KORBA 1”). Korpus liczy prawie 13,5 miliona segmentów (w rozumieniu przyjętym przez twórców Narodowego Korpusu Języka Polskiego1, dalej: NKJP). Zgromadzone w nim teksty prezentowane są w formie transkrypcji i transliteracji. Bogate metadane, znakowanie strukturalne i językowe oraz anotacja morfosyntaktyczna i lematyzacja dają możliwość zadawania różnorakich zapytań, filtrowania wyników oraz ich lokalizacji w źródle z dokładnością do numeru strony.

Projekt, w wyniku którego powstał korpus, miał charakter heterogeniczny. Z jednej strony polegał na wyborze reprezentatywnych tekstów z epoki, ich przeniesieniu na nośnik elektroniczny, opracowaniu językowym i edytorskim, a z drugiej – na stworzeniu narzędzi informatycznych służących do gromadzenia, przetwarzania, przeszukiwania i prezentowania fragmentów tekstów zawartych w korpusie lub na modyfikacji narzędzi już istniejących, stworzonych na potrzeby korpusów tekstów współczesnych. Dzięki projektowi udało się bez wątpienia unowocześnić metody badań historycznojęzykowych i włączyć je w nurt językoznawstwa korpusowego.

Od 2019 r. prace nad korpusem są kontynuowane w ramach projektu „Rozbudowa „Elektronicznego Korpusu Tekstów Polskich XVII i XVIII w.” i jego integracja z „Elektronicznym słownikiem języka polskiego XVII i XVIII w.”, zaplanowanego na lata 2019-2023 (dane dotyczące tego projektu znajdują się w zakładce „Projekt KORBA 2”). Rozbudowa korpusu będzie polegała zarówno na powiększeniu jego objętości w granicach chronologicznych zakreślonych dotychczas (1601–1772), jak i na poszerzeniu jego zakresu chronologicznego o lata 1773–1800. Łącznie wielkość korpusu planowana jest na 25 milionów segmentów. Przewidziane jest także zintegrowanie różnych zasobów językowych polszczyzny obejmujących okres XVII-XVIII w., a więc Elektronicznego Korpusu Tekstów Polskich XVII i XVIII w., Elektronicznego słownika języka polskiego XVII i XVIII w.2(e-SXVII), zdigitalizowanej kartoteki tego słownika3 oraz Cyfrowej Biblioteki Druków Ulotnych Polskich i Polski Dotyczących z XVI, XVII i XVIII Wieku4 (CBDU).


KorBa na tle innych polskich korpusów

Do roku 2013 doświadczenia w tworzeniu korpusów tekstowych języka polskiego ograniczały się w znacznym stopniu do korpusów tekstów współczesnych. Jak wiadomo, prace nad nimi były przez długi czas rozproszone. Ostatecznie jednak w latach 2007-2012 dzięki wspólnej inicjatywie Instytutu Podstaw Informatyki PAN (który był koordynatorem projektu), Instytutu Języka Polskiego PAN, Wydawnictwa Naukowego PWN oraz Zakładu Językoznawstwa Komputerowego i Korpusowego Uniwersytetu Łódzkiego, zrealizowanej jako projekt badawczy rozwojowy Ministerstwa Nauki i Szkolnictwa Wyższego, powstał Narodowy Korpus Języka Polskiego. NKJP jest obecnie największym korpusem języka polskiego (w zasadzie tekstów polskich), ale jest to korpus zawierający z założenia teksty względnie współczesne. KorBa pomyślana została jako swego rodzaju uzupełnienie historyczne –  pierwszy etap poszerzania korpusu narodowego o teksty dawne. Mamy nadzieję, że w niedalekiej przyszłości uda się stworzyć (pod)korpusy historyczne obejmujące całą dobę piśmienną dawnej polszczyzny. Korpusy takie zaczęły już powstawać. Istnieje tzw. korpus tekstów staropolskich5 (do 1500 r.) stworzony w Instytucie Języka Polskiego PAN, jednak na razie nie zawiera on żadnych anotacji (ani strukturalnych, ani morfosyntaktycznych), nie jest też wyposażony w wyszukiwarkę. Pierwszy korpus dawnych tekstów polskich, spełniający standardy przyjmowane dziś przy tworzeniu takich zasobów, powstał na potrzeby dużego międzynarodowego projektu IMPACT (Improving Access to Texts6). Korpus ten został zbudowany w latach 2009-2012 w Katedrze Lingwistyki Formalnej Uniwersytetu Warszawskiego przez zespół pod kierunkiem prof. Janusz S. Bienia. Cechą charakterystyczną tego korpusu jest wynikająca z celów całego projektu niezwykła wierność transliteracji – rozróżniane są w nim wszystkie kształty grafemów występujące w tekstach podstawowych7. Ostatnio w Instytucie Języka Polskiego Uniwersytetu Warszawskiego powstał stosunkowo niewielki korpus tekstów XIX-wiecznych8 (dokładniej z lat 1830-1918). W Instytucie Badań Literackich PAN zaczął powstawać także korpus polskich tekstów XVI-wiecznych9.

Za granicą z reguły bywa podobnie. Najpierw powstają wielkie korpusy tekstów współczesnych, które uzupełniane są z czasem (rzadziej równocześnie) o korpusy tekstów dawnych. W większości wypadków korpusy historyczne są dużo mniejsze od tych zawierających teksty współczesne. Wyjątkiem są relatywnie duże korpusy historyczne języków światowych, np. angielskiego – Early English Books Online10 (ok. 755 mln słów) i Corpus of Historical American English11 (ok. 400 mln słów) – czy hiszpańskiego12 (>100 mln słów). Na tle tych wielkich korpusów historycznych nasz korpus może wydawać się mały. Jeśli jednak porównać go z korpusami historycznymi innych języków europejskich, okazuje się, że jego wielkość jest z wielkością tych korpusów w pełni porównywalna.

Twórcy NKJP w znacznym stopniu wyznaczyli standardy polskiego językoznawstwa korpusowego, stworzyli też narzędzia informatyczne służące do budowania i obsługi NKJP oraz do korzystania z niego. Oczywiste więc jest to, że w projekcie KorBa wzorowaliśmy się na NKJP przy tworzeniu analogicznych narzędzi oraz konstruowaliśmy korpus tak, by w przyszłości był on możliwie zgodny z NKJP pod względem przyjętych w nim rozstrzygnięć lingwistycznych i inżynierskich. W szczególności staraliśmy się zachować jak największą zbieżność z NKJP pod względem systemu znakowania morfosyntaktycznego. Z oczywistych powodów niemożliwe jednak było zastosowanie w korpusie tekstów średniopolskich takiego samego zestawu znaczników, jaki był stosowany w korpusie tekstów współczesnych. Pewne zmiany musiały zostać wprowadzone, ponieważ polszczyzna XVII- i XVIII-wieczna znała z jednej strony pewne kategorie gramatyczne (lub ich wartości) dziś już niewystępujące, a z drugiej – nie znała jeszcze wszystkich kategorii właściwych współczesnemu językowi polskiemu. Zestaw znaczników morfosynaktycznych szczegółowo przedstawiamy w zakładce „Instrukcja”.

Prezentowany tu korpus jest próbą zbudowania relatywnie dużego korpusu dawnych tekstów polskich, który spełnia wymagania stawiane dziś przed takimi zasobami i przeznaczony jest do wielokierunkowych badań. Zrezygnowaliśmy z niezwykle wiernej transliteracji stosowanej w korpusie IMPACT, ponieważ w pewnym stopniu utrudnia ona dostęp do zawartych w korpusie tekstów (użytkownicy, dla których grafia tekstów jest istotna, mogą korzystać właśnie z korpusu IMPACT). Korpus nasz daje dostęp do dziedzictwa narodowego epoki baroku, w szczególności ułatwia zapoznanie się z ewolucją języka ojczystego. Najważniejsze jednak jest to, że korpus stanowi nowe narzędzie badawcze przydatne w różnych dziedzinach humanistyki, np. w językoznawstwie, literaturoznawstwie, kulturoznawstwie, historii, socjologii. Ułatwia on bowiem przeszukiwanie i analizę dawnych polskich tekstów.


Zasady doboru tekstów

Na etapie prac koncepcyjnych staraliśmy się uwzględniać ogólnie przyjmowane cechy konstytutywne korpusów językowych – reprezentatywność i zrównoważenie. Jednak wobec materiału historycznego raczej można mówić o dążeniu do tych atrybutów. Ostatecznie w doborze tekstów barokowych istotną rolę odgrywały różnorakie kryteria, w części także pozajęzykowe.

Zawartość korpusu została zdeterminowana przez ograniczoną wiedzę o rzeczywistym piśmiennictwie epoki (a nie tylko tym zachowanym). Z natury rzeczy znaczącą cześć zachowanych tekstów stanowią utwory literackie – traktowane z większą uwagą, wielokrotnie wydawane, przekazywane następnym pokoleniom jako element spuścizny kulturowej. Podczas pracy nad korpusem historycznym fakt ten skutkował niemożnością zastosowania reguły przyjmowanej dla wzorcowej budowy korpusu współczesnego, która zakłada jedynie kilkunastoprocentowy udział tekstów literatury pięknej. Istotna przy konstruowaniu korpusu współczesnego wiedza o czytelnictwie jest w odniesieniu do baroku bardzo ograniczona i opiera się na wnioskowaniu pośrednim. O popularności danego tekstu świadczyć może większa liczba jego wydań, a także potwierdzenia jego znajomości zaczerpnięte z innych zapisów z epoki.

Autorzy korpusu historycznego spotykają się z różnorodnymi ograniczeniami w zakresie dostępu do materiału. Mogą wykorzystać wyłącznie jeden kanał komunikacyjny – źródła pisane, dodatkowo okrojony do tekstów, które zachowały się przez trzysta czy czterysta lat. Jednak materiał historyczny nie jest też pozbawiony swoistych zalet. Badacze dysponują oglądem zbioru zamkniętego, o skończonym procesie rozwoju i ewolucji – korpus współczesny zawsze pozostaje pod tym względem otwarty. Materiał historyczny stwarza również perspektywę badawczą o dużym dystansie czasowym, która ułatwia syntetyczne opracowanie.

Ograniczenia w zakresie dostępności materiału wymusiły na twórcach korpusu wykorzystanie bardzo zróżnicowanych typów źródeł pomimo świadomości, że niektóre z nich są niedoskonałe. Najbardziej pożądane źródła to zachowane teksty z epoki w postaci starodruków i rękopisów. Były to jednakże materiały najtrudniejsze do pozyskania, gdyż wymagały przepisania na komputerze, a to – jak wiadomo – zadanie czasochłonne i kosztowne. Mimo to teksty takie stanowią ponad połowę objętości Korpusu. Porównywalne z nimi co do wartości i wiarygodności są włączone do korpusu teksty starodruków dokładnie transliterowane i udostępnione nam w postaci elektronicznej przez wykonawców polskiej części międzynarodowego projektu IMPACT (jest to zbiór obejmujący około 1,6 mln segmentów). W korpusie znalazły się również wydania tekstów barokowych pochodzące z czasów późniejszych. Szczególnie dalekie od doskonałości są edycje z XIX wieku (ze względu na przyjęte wówczas standardy znacznych ingerencji wydawcy w publikowane teksty). Włączaliśmy je jednak, bo często były to jedyne zachowane postaci tekstów ciekawych i wartych wprowadzenia do korpusu. Kolejny typ włączanych źródeł to opracowane elektronicznie wydania współczesne tekstów z XVII i XVIII wieku. Pod względem technicznym były one najwygodniejsze, bo z uwagi na elektroniczną formę, łatwo można było je umieścić w korpusie. Jednak i w tym wypadku pojawiały się trudności: z jednej strony natury prawnej (ograniczenia wynikające z prawa autorskiego), z drugiej zaś językowo-edytorskiej spowodowane tym, że współcześni wydawcy nierzadko wykorzystują jako podstawę edycji nie jedno, lecz równolegle kilka wydań z epoki. Ogólnie kierowaliśmy się zasadą, że lepszym rozwiązaniem jest włączenie tekstu w formie niepochodzącej z epoki niż pominięcie go w korpusie. Wszystkie źródła opatrzono dokładną informacją bibliograficzną, charakteryzującą również typ źródła (transliterowany rękopis lub druk z epoki czy późniejsze, XIX, XX, XXI-wieczne wydanie).

W celu zachowania zrównoważenia korpusu konieczne stało się przyjęcie zasady, że bardzo długie teksty (np. tzw. Biblia gdańska, Zielnik Syreniusza, zbiory kazań Birkowskiego, Młodzianowskiego, Starowolskiego) zostaną wprowadzone do korpusu w wybranych fragmentach.

W doborze tekstów do Korpusu Barokowego zostały uwzględnione następujące płaszczyzny zróżnicowania: chronologia, geografia, gatunki tekstów, tematyka.

Przyjęte kryteria dotyczące zróżnicowania chronologicznego zakładały dążenie do zrównoważonej ilościowo reprezentacji w korpusie czterech podokresów: 1601-1650, 1651-1700, 1701-1750 i 1751-1772. Oczywiście, przyjęte cezury czasowe są sztuczne i mają charakter wyłącznie porządkujący. Kryterium ilościowe wielokrotnie musiało być też skorygowane przez inne ważne czynniki. Na przykład, pierwsza połowa XVII wieku to czas powstania wielu ważnych, kanonicznych dla epoki tekstów, które musiały zostać uwzględnione w korpusie. Z kolei w pierwszych dziesięcioleciach XVIII wieku regresowi kultury towarzyszyło znaczne ograniczenie oryginalnego, interesującego piśmiennictwa.

Reprezentację chronologiczną tekstów w Korpusie Barokowym przedstawia poniższy wykres:

Pod względem zróżnicowania geograficznego zawartość korpusu uwzględnia teksty pochodzące ze wszystkich regionów, w których używano języka polskiego, wyróżnianych zazwyczaj w badaniach historycznych tego okresu. Są to: Mazowsze, Małopolska, Wielkopolska, Ziemie Ruskie, Ziemie Wielkiego Księstwa Litewskiego, Śląsk, Inflanty oraz Pomorze i Prusy. Liczba tekstów z wyodrębnionych regionów włączonych do korpusu pozostaje bardzo zróżnicowana. Stanowi ona w znacznym stopniu odzwierciedlenie aktywności piśmienniczej, a w jeszcze większym stopniu wydawniczej, poszczególnych ośrodków.

Zróżnicowanie geograficzne tekstów w Korpusie Barokowym ilustruje poniższa mapa:

Zróżnicowanie gatunkowe to kolejne kryterium doboru tekstów do Korpusu Barokowego. Współcześnie wykorzystywane do konstruowania korpusów genologie i typologie tekstów nie przystają dokładnie do potrzeb materiału historycznojęzykowego. Z tego względu konieczne stało się przygotowanie typologii spełniającej wymagania Korpusu Barokowego. Jest to konstrukcja kilkupoziomowa.

Na najwyższym poziomie rozdzielone zostały teksty wierszowane (zawierają 21% segmentów zgromadzonych w korpusie), niewierszowane (76% segmentów) i mieszane (3% segmentów). Informacja na ten temat to ważny element charakterystyki tekstu włączanego do korpusu, choćby ze względu na to, że rytm i rym wiersza mogą mieć wpływ na formę fleksyjną wyrazu wyszukiwanego w korpusie przez użytkownika.

Druga przyjęta płaszczyzna to rozróżnienie literatury pięknej i tekstów nieliterackich (niebeletrystycznych). W obrębie literatury pięknej zastosowano dalszy wewnętrzny podział, zgodny z tradycją, na epikę, lirykę i dramat oraz utwory synkretyczne. Oczywiście w tych klasach znajdą się teksty reprezentujące gatunki literackie charakterystyczne dla piśmiennictwa barokowego. Szczegółowa klasyfikacja tekstów nieliterackich koresponduje z typologią przyjętą w NKJP w zakresie możliwym do zastosowania wobec tekstów barokowych. Wobec niemożności kategorycznego i jednoznacznego przyporządkowania Pisma Świętego autorzy korpusu barokowego zdecydowali o odrębnym traktowaniu tekstu Biblii. Wyróżnione zostały następujące rodzaje i gatunki:

rodzaj gatunki
epika bajki, poematy epickie, przypowieści i specula (zwierciadła), romanse, żywoty świętych
liryka epitafia, epitalamia, kolędy i pastorałki, fraszki i epigramaty, lamenty, ody, panegiryki, pieśni, psalmy, sonety, emblematy, zagadki
dramat dialogi, jasełka, komedie, tragedie
utwory synkretyczne satyry, sielanki
teksty naukowo-dydaktyczne lub informacyjno-poradnikowe encyklopedie i kompendia, instrukcje, podręczniki, poradniki, przepisy kucharskie, przewodniki, rozmówki do nauki języka, traktaty, wykłady, zielniki, kalendarze
teksty perswazyjne kazania, mowy polityczne, pisma polityczne i społeczne, pisma religijne, dedykacje, mowy okolicznościowe, przysłowia
literatura faktograficzna herbarze, kroniki, opisy geograficzne, opisy podróży, pamiętniki, relacje
teksty urzędowo-kancelaryjne akta sejmikowe, diariusze sejmowe, intercyzy, inwentarze,  konstytucje sejmowe, księgi sądowe, listy urzędowe, przywileje i akty nadania, teksty sejmowe, testamenty, umowy, wilkierze
wiadomości prasowe i druki ulotne
listy
Biblia

Poniższe podsumowanie ilustruje zawartość procentową segmentów korpusu w wyróżnionych gatunkach tekstów.

Założeniem obowiązującym przy budowaniu Korpusu Barokowego było dążenie do odzwierciedlenia tematyki obecnej w piśmiennictwie epoki. Szczególnie ważne zadanie stanowiła rejestracja słownictwa odnoszącego się do dziedzin ówcześnie popularnych, a obecnie peryferyjnych (np. alchemia, astrologia, zielarstwo).


Możliwości wyszukiwania

Dane zgromadzone w Elektronicznym Korpusie Tekstów Polskich z XVII i XVIII w. (do 1772 r.) są dostępne za pomocą wyszukiwarki MTAS wykorzystującej język zapytań o nazwie Corpus Query Language (CQL). Język ten pozwala na wyszukiwanie pojedynczych segmentów lub ich sekwencji, których postać i wzajemne relacje można szczegółowo określić, używając przypisanych każdemu segmentowi atrybutów. Mniej zaawansowani użytkownicy mogą skorzystać z konstruktora zapytań, który umożliwia zastąpienie symboli CQL znanymi terminami gramatycznymi.

Wyniki wyszukiwania dostępne są zarówno w formie transliteracji, jak i transkrypcji, a wyszukiwarka zapewnia łatwe przełączanie się między tymi obiema postaciami tekstu. Dzięki zastosowaniu bogatego zestawu metadanych możliwe jest również wyszukiwanie interesujących badacza segmentów w dowolnie ograniczonych podkorpusach.

Szczegółowy opis możliwości wyszukiwarki i języka zapytań MTAS znajduje się w zakładce „Instrukcja”.


Przypisy

  1. Korpus dostępny pod adresem: http://nkjp.pl.
  2. Słownik dostępny pod adresem: https://sxvii.pl/.
  3. Kartoteka dostępna pod adresem: https://www.rcin.org.pl/dlibra/publication/20029.
  4. Biblioteka dostępna pod adresem: https://cbdu.ijp.pan.pl/.
  5. Korpus dostępny pod adresem: https://ijp.pan.pl/publikacje-elektroniczne/korpus-tekstow-staropolskich.
  6. Por.: http://www.impact-project.eu.
  7. Por.: Bień, Janusz S. (2014) The IMPACT project Polish Ground-Truth texts as a DjVu corpus. „Cognitive Studies | Études Cognitives” (14). pp. 75-84; https://ispan.waw.pl/journals/index.php/cs-ec/article/view/cs.2014.008. Korpus dostępny jest obecnie pod poniższymi adresami: https://szukajwslownikach.uw.edu.pl/IMPACT_GT_1/ i https://szukajwslownikach.uw.edu.pl/IMPACT_GT_2/.
  8. Por.: http://www.f19.uw.edu.pl/ i https://szukajwslownikach.uw.edu.pl/f19/.
  9. Por.: https://spxvi.edu.pl/korpus/.
  10. Por.: https://corpus.byu.edu/eebo/.
  11. Por.: https://corpus.byu.edu/coha/.
  12. Por.: http://www.corpusdelespanol.org/.