Between the devil and the deep blue sea or between users’ needs and the compilers’ powers: An analysis of the Czech-Polish part of the parallel corpus InterCorp

Szczegóły
Opis

Tytuł:: Between the devil and the deep blue sea or between users’ needs and the compilers’ powers: An analysis of the Czech-Polish part of the parallel corpus InterCorp
Między młotem a kowadłem, czyli czego potrzebuje użytkownik korpusu równoległego, a jakie są możliwości twórców korpusów (na przykładzie czesko-polskiej części korpusu równoległego InterCorp)
Autorzy:: Hebal-Jezierska, Milena
Kaczmarska, Elżbieta
Rosen, Alexandr
Data publikacji:: 2016
Wydawca:: Instytut Lingwistyki Stosowanej UW
Słowa kluczowe:: Czech
lexical equivalents
parallel corpus
comparative studies
ekwiwalenty leksykalne
język polski
język czeski
badania komparatywne
korpus równoległy
Polish
Język:: angielski
ISBN, ISSN:: 9788393532049
25444913
Linki:: https://open.icm.edu.pl/handle/123456789/13395 Link otwiera się w nowym oknie
Dostawca treści:: Repozytorium Centrum Otwartej Nauki
: Artykuł

Przejdź do źródła

Celem artykułu jest próba porównania oczekiwań użytkownika korpusu równoległego co do możliwości prowadzenia różnego typu badań, zwłaszcza analiz konfrontatywnych oraz translatologicznych z technicznymi możliwościami twórców korpusu. Autorzy rozpoczynają rozważania od szczegółowego opisu problemów twórców InterCorp. Wskazują na największe bolączki polegające na braku proporcji pomiędzy liczbą tekstów w poszczególnych językach umieszczonych w korpusie, a także na tym, że teksty reprezentują różne poziomy anotacji i tagowania. Szczegółowo opisana została polska część korpusu InterCorp. Autorzy podają dane statystyczne dotyczące poszczególnych wersji korpusu. Wiele miejsca poświęcono również problemowi anotacji i tokenizacji (znakowania). Zauważono, że dużym utrudnieniem jest brak jednolitego systemu znakowania dla wszystkich obecnych w InterCorpie języków. Na przedstawione w skrócie problemy twórców korpusu nakładają się trudności, jakie napotykają jego użytkownicy oraz ich oczekiwania względem jego zasobów. Osoby korzystające np. z zasobów polsko-czeskiej części InterCorpu narzekać mogą na zestawienie tekstów. O ile literatura piękna jest opracowywana ręcznie, o tyle tzw. kolekcje tekstów (Acquis, PressEurope, Europarl, Open Subtitles) są opracowywane tylko automatycznie. Paradoksalnie więc teksty, które nie sprawiają kłopotów twórcom korpusu, są dla niektórych użytkowników mniej przydatne. Nie można na przykład przeprowadzić szeregu badań opartych na materiale korpusowym, jeżeli nie da się ustalić kierunku przekładu albo języka źródłowego. Dotyczy to wszystkich analiz translatologicznych. Również niedostateczna wielkość korpusu stanowi dla użytkowników dużą przeszkodę. Zbyt mała liczba poświadczeń może uniemożliwić całkowicie przeprowadzenie badań nad konkretnym zjawiskiem leksykalnym czy gramatycznym (przykłady podane zostały w artykule). Użytkownicy sięgają jednak do korpusów paralelnych, ponieważ, mimo wszelkich niedociągnięć, stanowią one niezwykłe narzędzie służące do poszukiwania ekwiwalentów, a także porównywania znaczeń jednostek językowych. Dopasowanie odpowiedniego tematu badania do możliwości korpusu jest w tym przypadku podstawową czynnością poprzedzającą samo badanie, a jednocześnie gwarantem wiarygodności wyników. Sposób rozbudowywania InterCorpu jest sprawą powodującą prawdopodobnie największe kontrowersje pomiędzy twórcami a użytkownikami korpusu. Korzystającym z części polsko-czeskiej czy czesko-angielskiej zależy na tym, aby twórcy poświęcili jak najwięcej uwagi tej konkretnej parze języków, tę część rozbudowywali i doskonalili. Twórcy natomiast chcą uwzględnić w korpusie jak najwięcej języków. Z puntu widzenia użytkowników to zabieg mniej ważny, z punktu widzenia twórców to działanie przyszłościowe. Zarówno użytkownik korpusu, jak i jego twórca, znajdują się w sytuacji pomiędzy tym, co mogą i tym, co by chcieli – między swoistym młotem i kowadłem.

Gruszczyńska, Ewa; Leńko-Szymańska, Agnieszka, red. (2016). Polskojęzyczne korpusy równoległe. Polish-language Parallel Corpora. Warszawa: Instytut Lingwistyki Stosowanej, pp. 41-65.

Informacja

Between the devil and the deep blue sea or between users’ needs and the compilers’ powers: An analysis of the Czech-Polish part of the parallel corpus InterCorp