Sztuczna inteligencja, w tym zaawansowane modele językowe takie jak popularne chatboty, zdobywa coraz większą uwagę zarówno w świecie nauki, jak i szeroko rozumianej opinii publicznej. Tymczasem najnowsze badania opublikowane w świątecznym wydaniu czasopisma naukowego The BMJ przynoszą zaskakujące odkrycia: w testach przeznaczonych do wczesnego wykrywania demencji prawie wszystkie najpopularniejsze chatboty wykazywały oznaki łagodnych zaburzeń poznawczych.
Badanie to w szczególności zwraca uwagę na to, że starsze wersje tych modeli – podobnie jak starsze osoby badane w testach klinicznych – wypadają gorzej w ocenie zdolności poznawczych. Takie wyniki podważają powszechne przekonanie, że sztuczna inteligencja w niedalekiej przyszłości mogłaby zastąpić ludzkich lekarzy, szczególnie w obszarze diagnozowania skomplikowanych przypadków medycznych.
Prężny rozwój technologii sztucznej inteligencji od lat budzi zarówno zachwyt, jak i obawy. Wyobrażenia o AI wyręczającej nas w codziennych obowiązkach czy podejmującej odpowiedzialne decyzje medyczne stają się coraz bardziej realne. Liczne badania dowodzą, że duże modele językowe (LLM) mają ogromny potencjał, wykazując się imponującymi umiejętnościami rozpoznawania wzorców i diagnozowania. Jednak ich podatność na ograniczenia, które poznajemy codziennie u ludzi, pozostawała do tej pory nie w pełni zbadana.
Aby wypełnić tę lukę w wiedzy, naukowcy postanowili przetestować zdolności kognitywne najnowszych modeli LLM, takich jak ChatGPT 4 i 4o (OpenAI), Claude 3.5 „Sonnet” (Anthropic), oraz Gemini 1.0 i 1.5 (Alphabet). Wykorzystanym narzędziem badawczym był Montreal Cognitive Assessment (MoCA) – jeden z najpopularniejszych testów stosowanych przez neurologów do wczesnego wykrywania demencji i oceny takich zdolności jak uwaga, pamięć, język, umiejętności wzrokowo-przestrzenne oraz funkcje wykonawcze.
Test MoCA zakłada maksymalną liczbę 30 punktów, przy czym wynik powyżej 26 uważa się za normę. Ciekawostką jest fakt, że chatboty poddawane były identycznym instrukcjom, jak pacjenci ludzcy, a rezultaty zostały oceniane przez neurologa praktykującego w warunkach klinicznych. Wyniki? Najlepiej wypadł model ChatGPT 4o, zdobywając maksymalny wynik 26 punktów. Zaraz za nim uplasowały się ChatGPT 4 oraz Claude z wynikiem 25 punktów. Najsłabiej wypadła natomiast linia Gemini, a konkretnie Gemini 1.0, która zdobyła zaledwie 16 punktów, co wskazuje na wyraźne ograniczenia tych modeli.
Zaskakujące były szczegółowe wyniki poszczególnych zadań. Wszystkie modele miały trudności w zadaniach wymagających umiejętności wizualno-przestrzennych i odpowiedniego myślenia wykonawczego, takich jak rysowanie zegara ustawionego na określoną godzinę czy łączenie w odpowiedniej kolejności cyfr i liter (zadanie typu „trail making”). Co więcej, modele Gemini zupełnie nie poradziły sobie z zadaniem pamięciowego odtwarzania pięciosłownego ciągu (tzw. „delayed recall”).
Z drugiej strony chatboty wykazały zadziwiająco wysoką skuteczność w zadaniach obejmujących uwagę, język, abstrakcyjne myślenie i nazywanie wskazanych przedmiotów. Ciekawym przypadkiem był test Stroopa – jedno z bardziej zaawansowanych zadań oceny interferencji uwagi. Tylko ChatGPT 4o zdołał przejść jego najbardziej wymagającą fazę. Jednak w analizach wizualnych chatboty nie radziły sobie z interpretacją złożonych scen ani wyrażaniem empatii, co jest fundamentalną różnicą między AI a ludzkim funkcjonowaniem poznawczym.
Autorzy badania podkreślają, że wyniki te mają charakter obserwacyjny i nie można zapominać o zasadniczych różnicach między ludzkim mózgiem a algorytmami sztucznej inteligencji. Niemniej jednak jednolite niepowodzenia modeli LLM w zadaniach wymagających abstrakcji wizualnej i zaawansowanych funkcji wykonawczych wskazują na kluczową słabość, która może ograniczać ich zastosowanie w praktyce klinicznej.
Wnioski naukowców są jasne: neurologowie i lekarze nie muszą obawiać się, że ich miejsca pracy zostaną w najbliższym czasie przejęte przez zaawansowane modele językowe. Co więcej, można nawet zastanawiać się, czy nie nadejdzie czas, gdy to ludzie będą „leczyć” maszyny, modyfikując i doskonaląc modele AI tak, aby eliminować ich ograniczenia poznawcze.