Tytuł pozycji:
Audio emotion recognition based on song modality using Conv1D vs Conv2D
Audio emotion recognition is a very advanced process of detecting emotions from different forms of signals. The form of modality presented in this article is Audio-Song. The goal is to create different neural network architectures capable of recognizing the emotions of a song performer. The database used for this purpose is the RAVDESS database. We compared the performance of Conv1D with Conv2D, where MFCC is used for the feature extractor for both neural network architectures. The accuracies obtained are 83.95 and 82.47% respectively. The better of the two models is Conv1D regarding the accuracy result obtained and the complexity of the model, where it seems that the Conv1D model is less complex than the Conv2D model.
Rozpoznawanie emocji dźwiękowych to bardzo zaawansowany proces wykrywania emocji na podstawie różnych form sygnałów. Formą modalności przedstawioną w tym artykule jest utwór audio. Celem jest stworzenie różnych architektur sieci neuronowych zdolnych do rozpoznawania emocji wykonawcy utworu. Bazą danych wykorzystywaną w tym celu jest baza danych RAVDESS. Porównaliśmy wydajność Conv1D z Conv2D, gdzie MFCC jest używane do ekstraktora cech dla obu architektur sieci neuronowych. Uzyskane dokładności wynoszą odpowiednio 83,95 i 82,47%. Lepszym z obu modeli jest Conv1D pod względem uzyskanego wyniku dokładności i złożoności modelu, gdzie wydaje się, że model Conv1D jest mniej złożony niż model Conv2D.
Opracowanie rekordu ze środków MNiSW, umowa nr POPUL/SP/0154/2024/02 w ramach programu "Społeczna odpowiedzialność nauki II" - moduł: Popularyzacja nauki i promocja sportu (2025).