Badanie pokazuje, że modele obliczeniowe szkolone do wykonywania zadań słuchowych wykazują wewnętrzną organizację podobną do kory słuchowej człowieka. Obliczeniowe modele, które naśladują strukturę i funkcję ludzkiego systemu słuchowego, mogą pomóc naukowcom w projektowaniu lepszych aparatów słuchowych, implantów ślimakowych i interfejsów mózg-maszyna. Nowe badanie z MIT wykazało, że nowoczesne modele obliczeniowe pochodzące z uczenia maszynowego zbliżają się do tego celu.
W największym dotychczas badaniu głębokich sieci neuronowych, które były szkolone do wykonywania zadań słuchowych, zespół z MIT wykazał, że większość tych modeli generuje reprezentacje wewnętrzne, które dzielą właściwości reprezentacji obserwowanych w ludzkim mózgu, gdy ludzie słuchają tych samych dźwięków.
Badanie to daje również wgląd w to, jak najlepiej szkolić ten typ modelu: badacze stwierdzili, że modele szkolone na wejściu słuchowym, w tym hałasie tła, bardziej dokładnie naśladują wzorce aktywacji ludzkiej kory słuchowej.
„To, co wyróżnia to badanie, to jest to najbardziej kompleksowe porównanie tych rodzajów modeli do systemu słuchowego do tej pory. Badanie sugeruje, że modele pochodzące z uczenia maszynowego są krokiem we właściwym kierunku i daje nam pewne wskazówki, co sprawia, że są one lepszymi modelami mózgu,” mówi Josh McDermott, profesor nauk o mózgu i poznaniu w MIT, członek Instytutu McGovern dla Badań Mózgu w MIT i Centrum Mózgów, Umysłów i Maszyn, oraz starszy autor badania.
Doktorantka MIT Greta Tuckute i Jenelle Feather PhD ’22 są głównymi autorami otwartego artykułu, który pojawia się dziś w PLOS Biology.
Modele słuchu
Głębokie sieci neuronowe to obliczeniowe modele, które składają się z wielu warstw jednostek przetwarzających informacje, które mogą być szkolone na ogromnych ilościach danych do wykonywania konkretnych zadań. Ten typ modelu stał się szeroko stosowany w wielu aplikacjach, a neurobiolodzy zaczęli badać możliwość, że te systemy mogą również służyć do opisu, jak ludzki mózg wykonuje pewne zadania.
„Te modele, które są budowane z uczenia maszynowego, są w stanie mediacji zachowań na skali, która naprawdę nie była możliwa z poprzednimi rodzajami modeli, co doprowadziło do zainteresowania, czy reprezentacje w modelach mogą uchwycić rzeczy dziejące się w mózgu,” mówi Tuckute.
Gdy sieć neuronowa wykonuje zadanie, jej jednostki przetwarzające generują wzorce aktywacji w odpowiedzi na każde wejście audio, które otrzymuje, takie jak słowo lub inny rodzaj dźwięku. Te reprezentacje modelu wejścia można porównać z wzorcami aktywacji obserwowanymi w skanach fMRI mózgu ludzi słuchających tego samego wejścia.
W 2018 roku McDermott i ówczesny student doktorancki Alexander Kell zgłosili, że gdy szkolili sieć neuronową do wykonywania zadań słuchowych (takich jak rozpoznawanie słów z sygnału audio), wewnętrzne reprezentacje generowane przez model wykazywały podobieństwo do tych obserwowanych w skanach fMRI ludzi słuchających tych samych dźwięków.
Od tego czasu te rodzaje modeli stały się szeroko stosowane, więc grupa badawcza McDermotta postanowiła ocenić większy zestaw modeli, aby sprawdzić, czy zdolność do przybliżenia reprezentacji neuronowych obserwowanych w ludzkim mózgu jest ogólną cechą tych modeli.
W tym badaniu naukowcy przeanalizowali dziewięć publicznie dostępnych głębokich modeli sieci neuronowych, które zostały przeszkolone do wykonywania zadań słuchowych, oraz stworzyli 14 własnych modeli, opartych na dwóch różnych architekturach. Większość z tych modeli była szkolona do wykonywania pojedynczego zadania – rozpoznawania słów, identyfikowania mówcy, rozpoznawania dźwięków środowiskowych i identyfikowania gatunku muzycznego – podczas gdy dwa z nich były szkolone do wykonywania wielu zadań.
Kiedy badacze przedstawili te modele naturalnym dźwiękom, które były używane jako bodźce w eksperymentach fMRI z ludźmi, stwierdzili, że wewnętrzne reprezentacje modeli mają tendencję do wykazywania podobieństwa do tych generowanych przez ludzki mózg. Modele, których reprezentacje były najbardziej podobne do tych obserwowanych w mózgu, to modele, które były szkolone na więcej niż jedno zadanie i były szkolone na wejściu słuchowym, które obejmowało hałas tła.
„Jeśli trenujesz modele w hałasie, dają lepsze prognozy mózgu niż gdy tego nie robisz, co jest intuicyjnie rozsądne, ponieważ wiele rzeczywistego słyszenia polega na słyszeniu w hałasie, a to jest prawdopodobnie coś, do czego system słuchowy jest przystosowany,” mówi Feather.