Tytuł pozycji:
Learning rate interference to overcome overfitting for Audio Emotion Recognition using LSTM
This paper presents a neural network architecture approach to recognize human emotions on features extracted from an audio song. The features used to train the classifier are extracted using Mel Frequency Cepstrum Coefficients (MFCC). The presented neural network architecture is built based on the LSTM network, due to its ability to learn long-term dependencies and its simple implementation that helps highlight the importance of the learning rate hyper-parameter. By tuning the learning rate, the neural network tracks it regularly each time the weights are updated. Which worked perfectly to overcome the overfitting problem and achieve an accuracy result of 75.80%.
W artykule przedstawiono podejście oparte na architekturze sieci neuronowej umożliwiające rozpoznawanie ludzkich emocji na podstawie cech wyodrębnionych z utworu audio. Cechy używane do uczenia klasyfikatora są wyodrębniane przy użyciu współczynników cepstrum częstotliwości Mel (MFCC). Zaprezentowana architektura sieci neuronowej zbudowana jest w oparciu o sieć LSTM, ze względu na jej zdolność uczenia się zależności długoterminowych oraz prostą implementację, która pomaga podkreślić znaczenie hiperparametru szybkości uczenia się. Dostrajając szybkość uczenia się, sieć neuronowa śledzi ją regularnie za każdym razem, gdy wagi są zmieniane zaktualizowany. Co sprawdziło się doskonale, aby przezwyciężyć problem nadmiernego dopasowania i osiągnąć wynik dokładności 75,80%.
Opracowanie rekordu ze środków MNiSW, umowa nr POPUL/SP/0154/2024/02 w ramach programu "Społeczna odpowiedzialność nauki II" - moduł: Popularyzacja nauki i promocja sportu (2025).