Badania nad analizą głosu nabierają coraz większego znaczenia w diagnostyce zdrowia poznawczego. Okazuje się, że sposób, w jaki mówimy, może dostarczyć cennych informacji na temat kondycji naszego mózgu. Naukowcy już od dłuższego czasu badają, jak tempo mowy, artykulacja, modulacja tonu oraz długość pauz mogą wskazywać na wczesne objawy zaburzeń poznawczych. To otwiera drogę do nowoczesnych, nieinwazyjnych metod diagnostycznych, które mogą pomóc w wczesnym wykrywaniu takich schorzeń jak demencja czy łagodne zaburzenia poznawcze (MCI).
Jednak wykorzystanie analizy mowy rodzi również poważne wątpliwości związane z prywatnością. Nagrania głosowe zawierają szereg informacji umożliwiających identyfikację osoby, takich jak płeć, akcent czy emocjonalny stan rozmówcy. Co więcej, subtelne cechy fonetyczne mogą być unikalne dla każdej osoby, co zwiększa ryzyko nieautoryzowanego wykorzystania tych danych. Gdy głos jest przetwarzany przez systemy automatyczne, pojawia się niebezpieczeństwo ponownej identyfikacji osób oraz nadużywania zgromadzonych informacji.
W odpowiedzi na te wyzwania naukowcy z Boston University Chobanian & Avedisian School of Medicine opracowali innowacyjne rozwiązanie mające na celu ochronę prywatności użytkowników bez utraty diagnostycznej wartości nagrań głosowych. W swoim badaniu przedstawili model obliczeniowy, który wykorzystuje technikę zwana „pitch-shifting”. Proces ten polega na zmianie wysokości dźwięku, co pozwala na zamaskowanie tożsamości mówcy, jednocześnie zachowując kluczowe właściwości akustyczne mowy niezbędne do analizy poznawczej.
„Dzięki zastosowaniu takich metod jak pitch-shifting jako sposobu zniekształcania głosu wykazaliśmy, że można zmniejszyć ryzyko naruszenia prywatności, nie tracąc jednocześnie wartości diagnostycznej właściwości akustycznych” – powiedział główny autor badania, dr Vijaya B. Kolachalama, profesor medycyny.
W celu przetestowania tej metody, naukowcy wykorzystali dane pochodzące z dwóch dużych baz – Framingham Heart Study (FHS) oraz DementiaBank Delaware (DBD). Na zgromadzonych nagraniach zastosowano różne poziomy pitch-shiftingu oraz dodatkowe techniki, takie jak zmiana skali czasowej czy dodawanie szumu w tle. Celem było modyfikowanie cech głosu w taki sposób, aby poprawić anonimowość mówców, jednocześnie nie utrudniając klasyfikacji ich stanu poznawczego.
Analiza wyników pokazała, że model oprogramowania był w stanie rozróżnić trzy kategorie poznawcze – normalne funkcje poznawcze (NC), łagodne zaburzenia poznawcze (MCI) oraz demencję (DE). W przypadku zbioru danych FHS skuteczność klasyfikacji wynosiła 62%, a w przypadku bazy DBD – 63%. Choć są to wyniki, które wciąż można poprawić, wskazują one na duży potencjał zastosowania takich metod w praktyce klinicznej.
Eksperci podkreślają, że ten przełomowy projekt stanowi ważny krok w kierunku etycznego i praktycznego wykorzystania analizy głosu w medycynie. Ochrona prywatności pacjentów powinna być priorytetem, zwłaszcza w kontekście coraz większej automatyzacji analiz medycznych. Dr Kolachalama zwraca uwagę na konieczność stworzenia standardowych wytycznych koncentrujących się na prywatności i bezpieczeństwie danych w przyszłych zastosowaniach technologii opartych na analizie głosu.
Całe badanie zostało opublikowane w prestiżowym czasopiśmie „Alzheimer’s & Dementia: The Journal of the Alzheimer’s Association”. Projekt był wspierany przez liczne instytucje, w tym National Institute on Aging, American Heart Association oraz Gates Ventures, co pokazuje, jak istotne są tego typu badania dla przyszłości diagnostyki chorób neurodegeneracyjnych.
Prace nad opracowaniem jeszcze bardziej precyzyjnych narzędzi do ochrony prywatności w analizie głosu trwają. W przyszłości może to doprowadzić do stworzenia jeszcze skuteczniejszych systemów wczesnego wykrywania zaburzeń poznawczych przy jednoczesnym pełnym zabezpieczeniu danych osobowych pacjentów.