Informacja

Drogi użytkowniku, aplikacja do prawidłowego działania wymaga obsługi JavaScript. Proszę włącz obsługę JavaScript w Twojej przeglądarce.

Tytuł pozycji:

Model segmentacji mowy i rozpoznawania głosek do transkrypcji fonetycznej języków nisko zasobnych

Tytuł:
Model segmentacji mowy i rozpoznawania głosek do transkrypcji fonetycznej języków nisko zasobnych
A model of speech segmentation and phone recognition for phonetic transcription of low-resource languages
Autorzy:
Maczuga, Karol
Słowa kluczowe:
Speech recognition, Audio, Speech, Convolutional networks, Machine learning, Deep neural networks, Mel-spectrogram, Vowel recognition, CNN, CNN-RNN, Bi-GRU, Panphon, Phonetic transcription
Rozpoznawanie mowy, Audio, Mowa, Sieci konwolucyjne, Uczenie maszynowe, Głębokie sieci neuronowe, Mel-spektrogram, Rozpoznawanie głosek, CNN, CNN-RNN, Bi-GRU, Panphon, Transkrypcja fonetyczna
Język:
polski
Dostawca treści:
Repozytorium Uniwersytetu Jagiellońskiego
Inne
  Przejdź do źródła  Link otwiera się w nowym oknie
Transkrypcja fonetyczna to proces zapisywania mowy za pomocą symboli fonetycznych, które reprezentują dźwięki i artykulacyjne cechy wymawianych słów. Umożliwia ona dokładne odwzorowanie wymowy języka, niezależnie od pisowni słów. W dzisiejszych czasach transkrypcja fonetyczna odgrywa kluczową rolę w różnych aspektach nauki związanych z przetwarzaniem mowy. Przyczynia się m.in. do rozwijania wiedzy w obszarze języków i lingwistyki poprzez badanie różnic w wymowie, akcentach i dialektach. Aspekt mający na celu usprawnić proces transkrypcji dźwięków mowy był głównym bodźcem do podjęcia badań mających na celu zaangażować sztuczną inteligencję do poprawienia skuteczności transkrypcji fonetycznej. W pracy poruszono teoretyczne zagadnienia związane z uczeniem maszynowym oraz głębokim, które będą kluczowe do zrozumienia części badawczej oraz do wyciągnięcia wniosków. Opisane zostały również kwestie dotyczące jednostek czy transkrypcji fonetycznych. Omówione zostały również zagadnienia z zakresu segmentacji sygnału mowy czy analizy spektralnej, która jest kluczowym aspektem łączącym model sztucznej inteligencji z określonym zbiorem danych. W ostatniej części pracy przedstawiono wszystkie kluczowe aspekty pozwalające przeprowadzić badanie dotyczące skuteczności głębokich konwolucyjnych sieci neuronowych w rozpoznawaniu głosek do transkrypcji fonetycznych języków nisko zasobnych z wykorzystaniem architektury CNN oraz CNN-RNN. Jest to o tyle trudne zagadnienie do zrealizowania, ponieważ większość języków współczesnych ma bardzo mało lub wręcz całkowity brak powiązanych zasobów tekstowych.

Phonetic transcription is the process of recording speech using phonetic symbols that represent the sounds and articulatory features of pronounced words. It enables an accurate representation of the pronunciation of a language, regardless of the spelling of the words. Nowadays, phonetic transcription plays a key role in various aspects of learning related to speech processing. Among other things, it contributes to the development of knowledge in the field of languages and linguistics by studying differences in pronunciation, accents and dialects. The aspect to improve the transcription process of speech sounds was the main impetus for the research to engage artificial intelligence to improve the efficiency of phonetic transcription. The theoretical issues related to machine learning and deep learning, which will be crucial to understand the research part and to draw conclusions, are covered in the thesis. Issues concerning units or phonetic transcriptions have also been described. Topics in the area of speech signal segmentation or spectral analysis, which is a key aspect of linking an artificial intelligence model to a specific dataset, were also described. The last part of the thesis presents all the key aspects to perform a study on the effectiveness of deep convolutional neural networks in voice recognition for phonetic transcriptions of low-resource languages using CNN and CNN-RNN architectures. This is a challenging problem to accomplish, as most modern languages have very little to no associated textual resources.

Ta witryna wykorzystuje pliki cookies do przechowywania informacji na Twoim komputerze. Pliki cookies stosujemy w celu świadczenia usług na najwyższym poziomie, w tym w sposób dostosowany do indywidualnych potrzeb. Korzystanie z witryny bez zmiany ustawień dotyczących cookies oznacza, że będą one zamieszczane w Twoim komputerze. W każdym momencie możesz dokonać zmiany ustawień dotyczących cookies