Tytuł pozycji:
Identifying age groups of Twitter users based on the specific characteristics of textposts
Dane (wiadomości) tekstowe stanowią znaczną część wszystkich danych zamieszczanych w Internecie. Jedną z informacji, które badacze chcieliby uzyskać o autorach wiadomości tekstowych, jest ich wiek, ponieważ ma on duże znaczenie z perspektywy badań marketingowych, społecznych czy ekonomicznych. Nie zawsze jednak data urodzenia jest udostępniana publicznie. Z badań językowych wynika, że przedstawiciele różnych grup wieku posługują się odmiennym słownictwem i innymi formami gramatycznymi. Wydaje się, że mogą je różnicować również sposoby formatowania wiadomości tekstowych i poprawność zapisu tekstu. Celem badania omawianego w artykule jest wyodrębnienie grup wieku autorów wpisów na Twitterze (obecnie X) na podstawie elementów zwykle usuwanych z tekstów analizowanych metodami text mining, takich jak emotikony, znaki interpunkcyjne i słowa, które nie są nośnikami treści (ang. stopwords). Przeanalizowano prawie 3 mln tweetów w języku angielskim opublikowanych przed lipcem 2020 r. Badanie wykazało, że wyodrębnione cechy w niewielkim stopniu różnicują grupy wiekowe. Najbardziej specyficznym stylem pisania wiadomości wyróżniają się najmłodsi użytkownicy Internetu.
Textual data (textposts) account for a significant portion of all data posted on the Internet. One piece of information that researchers are seeking to obtain about the authors of textposts is their age, which is not always made public, yet important from the point of view of marketing, social and economic research. Language research shows that representatives of different age groups tend to use a distinct set of vocabulary and grammatical forms. Presumably, textpost formatting as well as the level of the correctness of the text itself may also differentiate user age groups. The aim of the research presented in this article is to use the elements typically eliminated from texts during text mining processes, such as emoticons, punctuation marks and words that are not content carriers (stopwords) to distinguish the age groups of the authors of Twitter (currently X) posts. The study analysed nearly 3 million tweets in English posted before July 2020. The research shows that distinguished textpost elements differentiate the age groups only to a small extent. The youngest users stood out the most due to their specific language characteristics in textposts.