Tytuł pozycji:
Unsupervised machine learning in financial anomaly detection : clustering algorithms vs. dedicated methods
The article presents the application of selected clustering algorithms for detecting anomalies in financial data compared to several dedicated algorithms for this problem. To apply clustering algorithms for anomaly detection, the Determine Abnormal Clusters Algorithm (DACA) was developed and implemented. This parameterized script (DACA) allows clusters containing anomalies to be automatically detected on the basis of defined distance measures. This kind of operation allows clustering algorithms to be quickly and efficiently adapted to anomaly detection. The prepared test environment has allowed for the comparison of selected clustering algorithms. K-Means, Hierarchical Cluster Analysis, K-Medoids, and anomaly detection: Stochastic Outlier Selection, Isolation Forest, Elliptic Envelope. The research has been carried out on real financial data, in particular on the income declared in the asset declarations of the targeted professional group. The experience of financial experts has been used to assess anomalies. Furthermore, the results have been evaluated according to a number of popular classification and clustering measures. The highest result for the investigated financial problem was provided by the K-Medoids algorithm in combination with the DACA script. It is worthwhile to conduct future research on the introduced solutions as an ensemble method.
Artykuł przedstawia zastosowanie wybranych algorytmów klasteryzacji do wykrywania anomalii w danych finansowych w porównaniu do kilku dedykowanych algorytmów dla tego problemu. W celu wykorzystania algorytmów klasteryzacji do wykrywania anomalii opracowano i zaimplementowano Determine Abnormal Clusters Algorithm (DACA). Ten sparametryzowany skrypt umożliwia na automatyczne wykrycie klastrów zawierających anomalie, na podstawie zdefiniowanych miar odległości. Takie działanie pozwala na szybkie i skuteczne dostosowanie algorytmów klasteryzacji do wyszukiwania anomalii. Przygotowane środowisko badawcze pozwoliło na porównanie wybranych algorytmów klasteryzacji: Hierarchical Cluster Analysis, K-Means, K-Medoids oraz wykrywania anomalii: Stochastic Outlier Selection, Isolation Forest, Elliptic Envelope, Badania przeprowadzono na rzeczywistych danych finansowych, w szczególności dotyczących dochodów zadeklarowanych w oświadczeniach majątkowych wybranej grupy zawodowej. Wykorzystano doświadczenie ekspertów finansowych do oceny anomalii. Ponadto, wyniki oceniono na podstawie wielu popularnych miar klasyfikacji i klasteryzacji. Najlepsze wyniki dla badanego problemu finansowego przedstawił algorytm K-Medoids w połączeniu ze skryptem DACA. W przyszłości warto przebadać metody złożone oparte o przedstawione rozwiązanie.