Tytuł pozycji:
Analiza porównawcza możliwości i ograniczeń wykorzystania silników Apache Flink, Apache Spark oraz Apache Storm w strumieniowym przetwarzaniu danych
Artykuł przedstawia analizę porównawczą trzech silników do przetwarzania strumieniowego danych: Apache Flink, Apache Spark i Apache Storm. Obejmuje ona kryteria porównawcze, takie jak: architektura, interfejsy, tryby prze- twarzania, tryby uruchomieniowe, niezawodność, skalowalność, wydajność, źródła i ujścia danych. W ramach badań przeprowadzono serię eksperymen- tów, w których każdy silnik był testowany w czasie rzeczywistym podczas re- alizacji zadania detekcji anomalii w pomiarach parametrów środowiskowych. Eksperymenty obejmowały analizę wpływu liczby czujników, rozmiaru okna agregującego oraz obciążenia systemu na opóźnienia w generowaniu ostrzeżeń, zużycie zasobów (CPU, pamięć RAM) i liczbę wygenerowanych ostrzeżeń przez każdy z silników. Wnioski z badań dostarczają informacji na temat efektywności i przydatności każdego z analizowanych silników w kontekście przetwarzania strumieniowego danych, zwłaszcza w zastosowaniach związanych z detekcją anomalii środowiskowych.
This article focuses on conducting a comparative analysis of three engines for stream processing of data: Apache Flink, Apache Spark, and Apache Storm. The analyses encompass various comparative criteria, such as architecture, interfaces, processing modes, execution modes, reliability, scalability, performance, data sources and sinks, as well as the utilization of machine learning. As part of the research, a series of experiments were conducted, wherein each engine was tested in real-time while performing the task of anomaly detection in environmental parameter measurements. The experiments included an analysis of the impact of the number of sensors, the size of the aggregating window, and system load on delays in generating warnings, resource consumption (CPU, RAM), and the number of warnings generated by each engine. The conclusions of the study can provide valuable information regarding the effectiveness and usefulness of each analyzed engine in the context of stream processing of data, especially in applications related to environmental anomaly detection.