Informacja

Drogi użytkowniku, aplikacja do prawidłowego działania wymaga obsługi JavaScript. Proszę włącz obsługę JavaScript w Twojej przeglądarce.

Tytuł pozycji:

Prediction of proteins disordered regions using artificial neural networks

Tytuł:
Prediction of proteins disordered regions using artificial neural networks
Zastosowanie sztucznych sieci neuronowych do przewidywania rejonów nieuporządkowanych w białkach
Autorzy:
Garbacz, Karolina
Słowa kluczowe:
artificial neural networks, disordered proteins, LSTM, NLP, Word Embedding
sztuczne sieci neuronowe, białka nieuporządkowane, LSTM, przetwarzanie języka naturalnego, Word Embedding
Język:
polski
Dostawca treści:
Repozytorium Uniwersytetu Jagiellońskiego
Inne
  Przejdź do źródła  Link otwiera się w nowym oknie
Białka zawierające rejony nieuporządkowane są obecnie popularnym obiektem badań wielu naukowców. Eksperymentalne poznanie wszystkich protein tego typu jest procesem bardzo czasochłonnym, dlatego coraz częściej podejmowane są próby wykorzystania w tym celu metod sztucznej inteligencji. Tematem niniejszej pracy jest zastosowanie sztucznych sieci neuronowych do przewidywania rejonów nieuporządkowanych w białkach. Celem tego projektu było głównie wprowadzenie nowego podejścia do analizowania sekwencji aminokwasowych z użyciem zarówno sztucznej sieci neuronowej typu LSTM, jak i metod przetwarzania języka naturalnego. Każda trójka aminokwasów w białku została potraktowana jak słowo, a następnie przedstawiona w przestrzeni 100-wymiarowej zgodnie z założeniami metody Word Embedding. Wektory te stały się danymi wejściowymi dla zaprojektowanej sieci neuronowej. Dokonano standardowych operacji trenowania oraz walidacji skuteczności przewidywania sieci, a także optymalizacji parametrów metodą grid search. Otrzymane wyniki zostały porównane z inną dostępną metodą do przewidywania rejonów nieuporządkowanych w białkach. Zaimplementowany model osiągnął ponad 80% skuteczności przewidywania, co jest wartością gorszą niż algorytm SPOT - Disorder. Podejście, które zostało zastosowanie w niniejszej pracy może zostać rozbudowane, dzięki czemu uzyskiwana skuteczność predykcji może wzrosnąć. Tym, co zdecydowanie odróżnia niniejszy projekt od innych jest wprowadzenie metod przetwarzania języka naturalnego do analizy białek.

Nowadays, proteins with disordered regions are popular research objects for many scientists. Experimental recognition of this kind of proteins is a very time consuming process, so attempts to use artificial intelligence methods to achieve this goal are more and more frequent. This thesis' topic is prediction of proteins' disordered regions using artificial neural networks. The main goal of this project was to introduce a new approach to aminoacids' sequences analysis with the usage of LSTM artificial neural networks and natural language processing methods. Every aminoacids' threesome was treated as a word, and then converted to 100dimension space using Word Embedding method. Those vectors were taken as input data for developed neural network. Standard training and validation of prediction was provided, as well as parameters' optimization based on grid search method. Received results were compared with another algorithm for predicting disordered regions in proteins. Implemented model achieved over 80% prediction's accuracy which is worse than SPOT - Disorder method. Approach that was introduced here, can be extended and improved, so that accuracy can be even higher. The main difference between this solution and others, is the fact that, NLP methods were used to analyzing proteins.

Ta witryna wykorzystuje pliki cookies do przechowywania informacji na Twoim komputerze. Pliki cookies stosujemy w celu świadczenia usług na najwyższym poziomie, w tym w sposób dostosowany do indywidualnych potrzeb. Korzystanie z witryny bez zmiany ustawień dotyczących cookies oznacza, że będą one zamieszczane w Twoim komputerze. W każdym momencie możesz dokonać zmiany ustawień dotyczących cookies