Zaburzenia mowy i języka dotykają każdego roku miliony dzieci na całym świecie. Wczesne rozpoznanie i rozpoczęcie terapii tych problemów ma kluczowe znaczenie dla rozwoju komunikacyjnego najmłodszych. Jednak w warunkach ograniczonych zasobów kadrowych i czasowych coraz trudniej jest zapewnić odpowiednią opiekę diagnostyczną. W tym kontekście coraz większe nadzieje wiążą się ze sztuczną inteligencją, która może stać się nieocenionym wsparciem w pracy logopedów oraz specjalistów zdrowia.
Marisha Speights, adiunktka na Uniwersytecie Northwestern, podjęła się ambitnego zadania stworzenia zaplecza technologicznego dla narzędzi opartych o AI (sztuczną inteligencję), dedykowanych do wczesnego wykrywania zaburzeń mowy u dzieci. Swój innowacyjny projekt przedstawiła podczas wspólnego wydarzenia 188. Spotkania Amerykańskiego Towarzystwa Akustycznego oraz 25. Międzynarodowego Kongresu Akustyki. Choć obecne rozwiązania oparte o rozpoznawanie mowy AI są już stosowane w diagnostyce, zdecydowana większość z nich została opracowana na podstawie danych pochodzących z mowy dorosłych. Tymczasem mówienie dzieci znacząco różni się pod względem akustycznym, co sprawia, że popularne modele nie nadają się do pracy klinicznej z młodszymi pacjentami.
W powszechnej opinii proces nagrywania mowy dzieci bywa mylnie postrzegany jako równie prosty jak w przypadku dorosłych. Jednak, jak zauważa Speights, wymaga to znacznie bardziej złożonego podejścia — uwzględniającego zarówno rozwój dziecka, jak i jego podatność na zmienne środowiskowe. Mowa dziecięca cechuje się wysoką zmiennością, innym brzmieniem oraz unikalnym dla poszczególnych etapów rozwoju charakterem. Do tej pory żaden z dostępnych korpusów danych nie odzwierciedlał w pełni tej specyfiki, co skutkowało brakiem precyzyjnych narzędzi diagnostycznych.
Aby przezwyciężyć ten problem, zespół Speights rozpoczął prace nad stworzeniem bogatej bazy nagrań dzieci w różnym wieku i z różnych rejonów kraju. Nieoczekiwanie jednak natrafili na paradoks — aby opracować zaawansowane narzędzia, potrzebne były duże zbiory danych, których stworzenie wymagało… tych samych narzędzi. Automatyzacja procesu zbierania, przetwarzania i oznaczania danych była niezbędna, a jednocześnie nieosiągalna bez wsparcia technologicznego.
W odpowiedzi na to wyzwanie, badacze stworzyli specjalną ścieżkę przetwarzania danych — tzw. pipeline — która pozwala zamieniać surowe nagrania w wysokiej jakości zestawy danych gotowe do trenowania algorytmów sztucznej inteligencji. Proces obejmował dobór odpowiednich próbek mowy reprezentujących różne grupy dzieci, weryfikację transkrypcji oraz poprawę jakości dźwięku przy użyciu własnoręcznie opracowanego oprogramowania. Na tej podstawie powstała również platforma, która umożliwia specjalistom dokładne oznaczanie linguistycznych i fonetycznych cech nagrań.
Dzięki tym działaniom udało się stworzyć pierwszą tej skali bazę danych dziecięcej mowy gotową do wykorzystania w systemach AI. Tego typu dane otwierają zupełnie nowe możliwości — umożliwiają bowiem trenowanie modeli pozwalających na wykrywanie zaburzeń mowy z niespotykaną dotąd dokładnością i szybkością. Co istotne, narzędzia te mogą być wykorzystywane nawet w miejscach o utrudnionym dostępie do specjalistów, co realnie wpływa na poszerzenie dostępności wczesnej interwencji logopedycznej.
Jak zauważa Speights, systemy oparte na sztucznej inteligencji będą mogły już na najwcześniejszych etapach edukacji identyfikować dzieci zagrożone opóźnieniami mowy. W połączeniu z wiedzą i doświadczeniem logopedów, stworzą one skuteczniejsze i bardziej dostępne mechanizmy wsparcia dla rodzin na całym świecie. Przyszłość diagnostyki mowy staje się dzięki temu bardziej precyzyjna, nowoczesna i integracyjna.