Informacja

Drogi użytkowniku, aplikacja do prawidłowego działania wymaga obsługi JavaScript. Proszę włącz obsługę JavaScript w Twojej przeglądarce.

Tytuł pozycji:

Identifying age groups of Twitter users based on the specific characteristics of textposts

Tytuł:
Identifying age groups of Twitter users based on the specific characteristics of textposts
Identyfikacja grup wieku użytkowników Twittera na podstawie charakterystyki wiadomości tekstowych
Autorzy:
Krzysztof Najman
Kamila Migdał-Najman
Katarzyna Raca
Agata Majkowska
Data publikacji:
2024-10-31
Tematy:
Twitter
text mining
user age
wiek użytkowników
Dostawca treści:
CEJSH
Artykuł
  Przejdź do źródła  Link otwiera się w nowym oknie
Dane (wiadomości) tekstowe stanowią znaczną część wszystkich danych zamieszczanych w Internecie. Jedną z informacji, które badacze chcieliby uzyskać o autorach wiadomości tekstowych, jest ich wiek, ponieważ ma on duże znaczenie z perspektywy badań marketingowych, społecznych czy ekonomicznych. Nie zawsze jednak data urodzenia jest udostępniana publicznie. Z badań językowych wynika, że przedstawiciele różnych grup wieku posługują się odmiennym słownictwem i innymi formami gramatycznymi. Wydaje się, że mogą je różnicować również sposoby formatowania wiadomości tekstowych i poprawność zapisu tekstu. Celem badania omawianego w artykule jest wyodrębnienie grup wieku autorów wpisów na Twitterze (obecnie X) na podstawie elementów zwykle usuwanych z tekstów analizowanych metodami text mining, takich jak emotikony, znaki interpunkcyjne i słowa, które nie są nośnikami treści (ang. stopwords). Przeanalizowano prawie 3 mln tweetów w języku angielskim opublikowanych przed lipcem 2020 r. Badanie wykazało, że wyodrębnione cechy w niewielkim stopniu różnicują grupy wiekowe. Najbardziej specyficznym stylem pisania wiadomości wyróżniają się najmłodsi użytkownicy Internetu.

Textual data (textposts) account for a significant portion of all data posted on the Internet. One piece of information that researchers are seeking to obtain about the authors of textposts is their age, which is not always made public, yet important from the point of view of marketing, social and economic research. Language research shows that representatives of different age groups tend to use a distinct set of vocabulary and grammatical forms. Presumably, textpost formatting as well as the level of the correctness of the text itself may also differentiate user age groups. The aim of the research presented in this article is to use the elements typically eliminated from texts during text mining processes, such as emoticons, punctuation marks and words that are not content carriers (stopwords) to distinguish the age groups of the authors of Twitter (currently X) posts. The study analysed nearly 3 million tweets in English posted before July 2020. The research shows that distinguished textpost elements differentiate the age groups only to a small extent. The youngest users stood out the most due to their specific language characteristics in textposts.

Ta witryna wykorzystuje pliki cookies do przechowywania informacji na Twoim komputerze. Pliki cookies stosujemy w celu świadczenia usług na najwyższym poziomie, w tym w sposób dostosowany do indywidualnych potrzeb. Korzystanie z witryny bez zmiany ustawień dotyczących cookies oznacza, że będą one zamieszczane w Twoim komputerze. W każdym momencie możesz dokonać zmiany ustawień dotyczących cookies