Tytuł pozycji:
Social media data analysis with Apache Spark
- Tytuł:
-
Social media data analysis with Apache Spark
Analiza danych sieci społecznościowych za pomocą Apache Spark
- Autorzy:
-
Kownacki, Aron
- Słowa kluczowe:
-
Big Data, Apache Spark, Twitter, stream processing, Lambda architecture, Spring
Big Data, Apache Spark, Twitter, przetwarzanie strumieniowe, architektura Lambda,Spring
- Język:
-
polski
- Dostawca treści:
-
Repozytorium Uniwersytetu Jagiellońskiego
-
Przejdź do źródła  Link otwiera się w nowym oknie
The paper presents a broad spectrum of issues related to the Big Data, including the main challenges and opportunities that result from the analysis of large datasets. An overview of popular tools included in the Hadoop ecosystem used in the process of their effective processing was also presented. Further theoretical considerations were devoted to the dynamically developing field of data stream processing, which is an important element of the Big Data analysis. Basic concepts specific to stream processing as well as differences and similarities with batch processing were discussed. The main abstract models used for distributed and parallel processing are presented, including high-level architectures of currently built tools and solutions based on them. In this context, a detailed presentation of the Apache Spark platform has been made, with particular emphasis on the Spark Streaming and Structured Streaming modules as the implementation of the theoretical assumptions discussed. In the practical part, a solution is described for processing and visualizing a limited data stream provided by the Twitter social network, which was built on the basis of Spark Streaming, Spring and MongoDB. As shown, the application in the example configuration allows for a basic analysis of the political trends regarding the issue of Euroscepticism.
W pracy przedstawiono szerokie spektrum zagadnień należących do tematyki Big Data, w tym główne wyzwania oraz możliwości, jakie wynikają z analizy dużych zbiorów danych. Zaprezentowano także przegląd popularnych narzędzi, wchodzących w skład ekosystemu Hadoop, wykorzystywanych w procesie efektywnego ich przetwarzania. Dalsze rozważania teoretyczne poświęcono, dynamicznie rozwijającej się w ostatnim czasie, dziedzinie przetwarzania strumieni danych, stanowiących istotny element analizy Big Data. Omówione zostały podstawowe pojęcia specyficzne dla przetwarzania strumieniowego oraz różnice i podobieństwa z przetwarzaniem wsadowym. Zaprezentowano główne abstrakcyjne modele wykorzystywane do rozproszonego i równoległego przetwarzania, w tym wysokopoziomowe architektury budowanych współcześnie narzędzi i opartych na nich rozwiązań. W tym kontekście dokonano szczegółowej prezentacji platformy Apache Spark, ze szczególnym uwzględnieniem modułów Spark Streaming oraz Structured Streaming, jako realizacji omawianych założeń teoretycznych. W części praktycznej opisano rozwiązanie służące do przetwarzania i wizualizacji limitowanego strumienia danych udostępnianych przez serwis społecznościowy Twitter, które zostało zbudowane w oparciu o Spark Streaming, Spring oraz MongoDB. Jak pokazano, aplikacja w przykładowej konfiguracji pozwala na podstawową analizę trendu politycznego dotyczącego zagadnienia eurosceptycyzmu.