Informacja

Drogi użytkowniku, aplikacja do prawidłowego działania wymaga obsługi JavaScript. Proszę włącz obsługę JavaScript w Twojej przeglądarce.

Tytuł pozycji:

Speaker diarization with use of LSTM

Tytuł:
Speaker diarization with use of LSTM
Diaryzacja audio przy wykorzystaniu sieci LSTM
Autorzy:
Rozwoda, Paweł
Słowa kluczowe:
machine learning, digital signal processing, speech recognition
uczenie maszynowe, cyfrowe przetwarzanie dźwięku, rozpoznawanie mowy
Język:
polski
Dostawca treści:
Repozytorium Uniwersytetu Jagiellońskiego
Inne
  Przejdź do źródła  Link otwiera się w nowym oknie
Niniejsza praca magisterska przedstawia zastosowanie uczenia maszynowego w przetwarzaniu dźwięku, a w szczególności diaryzacji jednokanałowego sygnału dźwiękowego. Diaryzacja polega na rozróżnianiu mówców na nagraniu. Najpierw na detekcji ilości mówców, następnie klasteryzacji i oznaczeniu na osi czasu występowanie tych mówców. Model diaryzacji opisywany w tej pracy zakłada, że w danej chwili mówi tylko jedna osoba. Ta praca ma na celu implementację i weryfikację metody opisanej w artykule [1]. Wytrenowany model sztucznej inteligencji uzyskał wynik diaryzacji na poziomie 73 % DER, co nie jest satysfakcjonującym rezultatem. Referencyjny wynik z pracy [1] wynosi 12.5%. Warto zaznaczyć, że niektóre nagrania w zbiorze CALLHOME [2] uzyskują DER na poziomie 39%, co bliższe jest wynikom zaprezentowanym w oryginale [1].

This master’s degree article concerns machine learning with use of digital signal processing. Diarization is a method which extracts different sources from mono audio channel. Firstly it consists of detecting speaker quantity, afterwards clustering and marking each speaker on time axis. Diarization model described in this article assumes only one speaker at a time. The purpose of this master’s degree article is to present and verify method described in article [1]. Diarization model trained in this work achieves 73 % DER which is not satisfactory. In [1] this measure reaches 12.5 % DER. Nevertheless there are such CALLHOME [2] recordings on which model from this master’s degree work achieves 39 % DER.

Ta witryna wykorzystuje pliki cookies do przechowywania informacji na Twoim komputerze. Pliki cookies stosujemy w celu świadczenia usług na najwyższym poziomie, w tym w sposób dostosowany do indywidualnych potrzeb. Korzystanie z witryny bez zmiany ustawień dotyczących cookies oznacza, że będą one zamieszczane w Twoim komputerze. W każdym momencie możesz dokonać zmiany ustawień dotyczących cookies