Korba - korpus składniowy

Średniopolski Korpus Zależnościowo-Składnikowy

O zasobie

Średniopolski Korpus Zależnościowo-Składnikowy powstał w latach 2018-2024. Zawiera 2018 zdań anotowanych składniowo i jest wciąż rozbudowywany. Zdania do znakowania składniowego zostały wybrane z ręcznie anotowanego podkorpusu Elektronicznego Korpusu Tekstów Polskich z XVII i XVIII Wieku. Obecna wersja zawiera przeważnie zdania o długości od 10 do 50 segmentów, wybrane z tekstów prozatorskich, niezawierające elementów w językach obcych oraz elementów oznakowanych jako niepewne odczytanie lub jako nierozpoznane. Anotacja została przeprowadzona w formacie zależnościowym zgodnie z założeniami Polskiego Banku Drzew Zależnościowych (Polish Dependency Bank, http://zil.ipipan.waw.pl/PDB; Wróblewska 2018 i 2020). Następnie zasób został wzbogacony o informację składnikową z wykorzystaniem parsera Hydra zgodnie z koncepcją K. Krasnowskiej-Kieraś i M. Wolińskiego (Krasnowska-Kieraś i Woliński 2023 i 2024).

Korpus składniowy

Twórcy

Koncepcja i koordynacja:: Aleksandra Wieczorek

Anotacja zależnościowa:: Bożena Itoya; Emanuel Modrzejewski; Martyna Sabała-Bolek

Superanotacja:: Aleksandra Wieczorek

Prace informatyczne:: Dorota Komosińska

Konsultacje:: Alina Wróblewska

Dotworzenie informacji składnikowej z wykorzystaniem parsera Hydra:: Katarzyna Krasnowska-Kieraś; Marcin Woliński

Wyszukiwarka Arboretum:: Marcin Woliński

Finansowanie

Anotacja pierwszych 1015 zdań była finansowana w ramach projektu Rozbudowa „Elektronicznego Korpusu Tekstów Polskich XVII i XVIII w.” i jego integracja z „Elektronicznym słownikiem języka polskiego XVII i XVIII w.” (finansowanie: MNiSW – Narodowy Program Rozwoju Humanistyki, nr projektu: 0413/NPRH7/H11/86/2018, czas trwania: 6 grudnia 2018 – 5 grudnia 2023). Kolejne 1003 zdania zostały zaanotowane w ramach projektu Wstęp do badań nad szykiem wyrazów w zdaniu średniopolskim – szyk przydawki (finansowanie: MNiSW – Miniatura, nr projektu: 2023/07/X/HS2/00111, czas trwania: 11 lipca 2023 – 10 lipca 2024). Oba projekty były realizowane w Instytucie Języka Polskiego PAN. Stworzenie wyszukiwarki Arboretum i parsera Hydra zostało sfinansowane z projektu „Cyfrowa infrastruktura badawcza dla humanistyki i nauk o sztuce” (Dariah.lab, POIR.04.02.00-00-D006/20-00).