Tytuł pozycji:
Wspomaganie wiedzy eksperckiej z użyciem algorytmów grupujących
Data clustering imposes important research in the fields of data mining and machine learning.Some of the most extensively investigated methods are clustering algorithms.There exists a wide spectrum of such methods varying from unsupervised through semi-supervised to fully supervised methods.However, both supervised and unsupervised methods have advantages and disadvantages. Unsupervised clustering can cluster large datasets with minor human intervention, but it lacks understanding of the data and may produce senseless clusters, which implies a post-clustering evaluation phase during which domain expert has to assess produced results.On the other hand, supervised or semi-supervised clustering, which utilises domain expert knowledge during the clustering phase may produce biased results as the expert may not spot some non-obvious patterns in the data.In this work, we present Knowledge Augmented Clustering (KNAC), which tries to solve these problems by combining both approaches.KNAC refines expert knowledge by taking expert and automated labellings, comparing them and suggesting changes to the expert clustering.We demonstrate the feasibility of our method on artificially, reproducible examples and on a real-life use case scenario.
Grupowanie danych to jeden z najbardziej badanych obszarow analizy danych i uczenia maszynowego.Jednymi z najbardziej ekstensywnie rozpatrywanych metod uczenia maszynowego są algorytmy klasteryzacji.Istnieje szerokie spektrum wspomnianych metod grupowania poczynając od metod nienadzorowanych, przez częściowo-nadzorowane do nadzorowanych.Jednakże, zarówno metody nadzorowane, jak i nienadzorowane mają zalety i wady.Nienadzorowane grupowanie jest w stanie grupować bardzo duże zbiory danych z niewielką ingerencją człowieka. Brakuje mu jednak zrozumienia grupowanych danych, co może skutkować tworzeniem klastrów pozbawionych sensu, co z kolei implikuje fazę oceny (występującej po grupowaniu automatycznym), podczas której ekspert domeny musi ocenić uzyskane wyniki.Z drugiej strony, grupowanie nadzorowane lub częściowo-nadzorowane, które wykorzystuje wiedzę ekspercką z danej dziedziny podczas fazy grupowania, może dawać tendencyjne wyniki, ponieważ ekspert może nie zauważyć pewnych nieoczywistych wzorców w danych.W tej pracy przedstawiamy Knowledge Augmented Clustering (KNAC), który próbuje rozwiązać te problemy łącząc oba podejścia.KNAC doskonali wiedzę ekspercką porównując etykietowanie eksperta z etykietowaniem automatycznym i sugerując zmiany w grupowaniu eksperta.Demonstrujemy efektywność naszej metody zarówno na sztucznie wygenerowanych danych,jak i na danych ze świata rzeczywistego.