Tytuł pozycji:
Porównanie analizy najczęstszych słów i Topic Modelingu na angielskim i polskim korpusie tekstów
- Tytuł:
-
Porównanie analizy najczęstszych słów i Topic Modelingu na angielskim i polskim korpusie tekstów
A Comparison of Most Frequent Words Analysis and Topic Modeling on English and Polish Text Corpora
- Autorzy:
-
Misterka, Justyna
- Słowa kluczowe:
-
topic modeling, korpus tekstów, tłumaczenie, stylometria, MFW, analiza najczęstszych słów, analiza skupień, stylo, mallet, gephi
topic modeling, text corpora, corpus, translation, stylometry, MFW, most frequent words analysis, cluster analysis, stylo, mallet, gephi
- Język:
-
angielski
- Dostawca treści:
-
Repozytorium Uniwersytetu Jagiellońskiego
-
Przejdź do źródła  Link otwiera się w nowym oknie
The main aim of this thesis was to present and discuss two different types of stylometric analyses – most frequent words (MFW) analysis and Topic Modeling. The former is often used in authorship attribution (i.e. it identifies styles and groups works of the same writers together) and the latter uses computational analysis to infer thematic patterns from a large collection of texts. It would seem that due to these differences, both analyses should give distinctive results.The analyses were performed on two sets of texts – English novels and Polish translations. Some of the English texts were rendered by two or more translators and thus the comparison of several versions of the same book was possible. The English corpus comprises texts from almost four centuries – the oldest being the 18th century Robinson Crusoe by Defoe, and the youngest – Inherent Vice by Pynchon, form the 21st century. This created an opportunity to look at the corpus from a chronological point of view.The results of Topic Modeling, depending on the parameters (i.e. number of topics), were similar to MFW analysis to a varying degree. Some books by the same authors always stayed together, while others clustered with different novels, sometimes while being completely detached from their own. In many cases, a text (or a group of texts of the same author) behaved in a different way in every analysis discussed. Yet, when the whole networks were taken into consideration, clusters of texts written by the same author were visible in both English and Polish sets.The fact that there are two large corpora of texts in two languages allowed to investigate how a certain text behaves in both the original and the translated version, and what is its position in both networks.The results of this research showed that the author’s style is a very strong feature and it is visible also in Topic Modeling analyses. There are both similarities and discrepancies between MFW analysis and Topic Modeling, although, the differences are not as striking as it might have been expected.
Głównym celem tej pracy jest przedstawienie i omówienie dwóch typów analizy stylometrycznej – analizy najczęstszych słów oraz Topic Modelingu. Pierwsza analiza wykorzystywana jest w badaniach atrybucji autorstwa (poprzez identyfikację stylu charakterystycznego dla autora, łączy teksty napisane przez tę samą osobę), natomiast Topic Modeling, korzystając z analizy obliczeniowej, wykrywa wzory tematyczne w dużych korpusach tekstów. Biorąc pod uwagę te różnice, można przypuszczać, że ich wyniki również będą się różnić.Analizy dokonano na dwóch korpusach – angielskich tekstach w oryginale i polskich tłumaczeniach. Niektóre angielskie teksty zostały przetłumaczone przez dwóch (lub więcej) tłumaczy, co pozwoliło na porównanie kilku wersji tej samej książki.Korpus oryginałów składa się z tekstów z różnych epok – najstarsza to „Robinson Crusoe” Daniela Defoe (XVIII w.), a najmłodszą jest „Inherent Vice” Thomasa Pynchona (XIX w.). Dzięki temu, rozpatrzona została także chronologia.W zależności od wybranych ustawień (ilości topiców), wyniki Topic Modelingu były bardziej lub mniej podobne do analizy najczęstszych słów. Niektóre książki tego samego autora zawsze trzymały się razem, a inne łączyły się tyko z dziełami innych pisarzy. W wielu przypadkach tekst (lub zbiór tekstów tego samego pisarza) zachowywał się inaczej w każdej analizie.Kiedy jednak weźmiemy pod uwagę całe sieci tekstów, wyraźnie widać, że sygnał autora jest silny zarówno w oryginałach, jak i w tłumaczeniach.Wyniki badań wykazały, że jedną z najsilniejszych cech analizy stylometrycznej jest właśnie styl autora. Jest on widoczny także w badaniach Topic Modelingu. Porównując obie analizy, można znaleźć podobieństwa oraz różnice. Jednak te ostatnie nie są tak wyraźne, jak można się tego było spodziewać.