Improving the performance of machine learning with sequential feature selection and grid search

Szczegóły
Abstrakt

Tytuł:: Improving the performance of machine learning with sequential feature selection and grid search
Autorzy:: Assegie, Tsehay Admassu
Murugan, Sangeetha
Govindarajan, Rajkumar
Napa, Komal Kumar
Nageswari, D.
Data publikacji:: 2024
Słowa kluczowe:: k-nearest neighbor
parameter tuning
machine learning
jakość wina
dostrajanie parametrów
uczenie maszynowe
Język:: angielski
Dostawca treści:: BazTech
: Artykuł

Feature selection is an important step in developing accurate machine-learning models for classification tasks, including wine quality prediction. The accuracy of the machine learning model depends on the selection of relevant features that contribute to the predicted outcome. In this paper, we propose two commonly used optimization methods, forward sequential feature selection (SFS), and grid search, to identify the most relevant features for wine quality prediction using K-nearest neighbor (KNN). We used a dataset of 1598 samples with 11 wine-quality features and evaluated the performance of the KNN model trained on different subsets of features selected SFS. The result suggests that SFS and gird search are effective methods for wine quality prediction using KNN. The identified wine quality features help to predict the quality of wine more accurately, leading to better predictive outcomes. Thus, machine learning models can benefit greatly from the use of grid search and SFS. By fine-tuning the model in this way, it is possible to achieve better results in applications where accuracy and speed are important. As machine learning continues to be used in a wide range of industries, the use of these techniques will become increasingly important. Further research is needed to validate the model on larger datasets and to integrate it into practical classification or predictive analysis.

Wybór funkcji to ważny krok w opracowywaniu dokładnych modeli uczenia maszynowego do celów klasyfikacji, w tym przewidywania jakości wina. Dokładność modelu uczenia maszynowego zależy od wyboru odpowiednich cech, które przyczyniają się do przewidywanego wyniku. W tym artykule proponujemy dwie powszechnie stosowane metody optymalizacji, sekwencyjny wybór cech w przód (SFS) i przeszukiwanie siatki, aby zidentyfikować cechy najbardziej odpowiednie do przewidywania jakości wina za pomocą K-najbliższego sąsiada (KNN). Wykorzystaliśmy zbiór danych obejmujący 178 próbek z 13 cechami jakości wina i oceniliśmy działanie modelu KNN wyszkolonego na różnych podzbiorach wybranych cech FSFS. Wynik sugeruje, że SFS i przeszukiwanie pasów są skutecznymi metodami przewidywania jakości wina za pomocą KNN. Zidentyfikowane cechy jakości wina pomagają dokładniej przewidzieć jakość wina, co prowadzi do lepszych wyników predykcyjnych. Zatem modele uczenia maszynowego mogą w znacznym stopniu skorzystać na wykorzystaniu wyszukiwania siatki i SFS. Dostrajając w ten sposób model, możliwe jest osiągnięcie lepszych wyników w zastosowaniach, w których ważna jest dokładność i szybkość. Ponieważ uczenie maszynowe jest w dalszym ciągu wykorzystywane w wielu gałęziach przemysłu, wykorzystanie tych technik będzie zyskiwać na znaczeniu. Konieczne są dalsze badania, aby zweryfikować model na większych zbiorach danych i włączyć go do praktycznej klasyfikacji lub analizy predykcyjnej.

Opracowanie rekordu ze środków MNiSW, umowa nr POPUL/SP/0154/2024/02 w ramach programu "Społeczna odpowiedzialność nauki II" - moduł: Popularyzacja nauki i promocja sportu (2025).

Informacja

Improving the performance of machine learning with sequential feature selection and grid search