W ostatnim zaskakującym odkryciu łączącym sztuczną inteligencję z neurologią, naukowcy zaobserwowali, że zaawansowane chatboty AI wykazują wzorce przypominające łagodne zaburzenia poznawcze, gdy poddawane są standardowym testom przesiewowym na demencję. Wyniki te otwierają fascynującą dyskusję o realnych możliwościach sztucznej inteligencji w środowisku medycznym.
—
Czy sztuczna inteligencja naprawdę zastąpi lekarzy?
Od lat pojawiają się śmiałe wizje dotyczące zastępowania lekarzy przez technologie AI, szczególnie w diagnostyce medycznej. Jednak badanie opublikowane w świątecznym numerze prestiżowego czasopisma medycznego The BMJ rzuca nowe światło na te aspiracje. Eksperci postanowili zbadać, czy zaawansowane modele językowe – takie jak ChatGPT czy Claude – są zdolne dorównać ludziom pod kątem funkcji poznawczych. Wyniki? Zaskakująco ludzkie – ale niestety, w bardziej negatywnym sensie.
Badacze poddali różne modele chatbotów testowi MoCA (Montreal Cognitive Assessment), który jest powszechnie stosowany w wykrywaniu wczesnych oznak demencji. W badaniu wzięły udział najnowsze wersje popularnych systemów AI: ChatGPT-4, ChatGPT-4o, Claude 3.5 „Sonnet” od Anthropic oraz Gemini 1.0 i 1.5 opracowane przez firmę Alphabet.
—
Wyniki testów – zaskoczenie czy rozczarowanie?
Najlepszym wynikiem mogła pochwalić się aktualizacja modelu ChatGPT-4o, uzyskując 26 na 30 punktów – ledwo osiągając próg uznawany za „normę” dla ludzi. ChatGPT-4 oraz Claude zdobyły po 25 punktów, co umiejscawia je poniżej progu typowego dla prawidłowej funkcji poznawczej. Zanotowano jednak wyraźne pogorszenie wyników w starszych wersjach chatbotów. Gemini 1.0 osiągnął tylko 16 punktów, co może być postrzegane jako wynik sugerujący głębokie ograniczenia poznawcze w kontekście testu.
Co ciekawe, starsze wersje modeli uzyskiwały jeszcze gorsze wyniki, co do złudzenia przypomina schemat starzenia się ludzkiego mózgu i utratę funkcji poznawczych z wiekiem. To odkrycie wzbudziło wątpliwości, czy rozwój tych narzędzi podąża w stronę, która rzeczywiście może w pełni zastąpić ludzką intuicję i wiedzę.
—
Jakie obszary okazały się piętą achillesową AI?
Wyniki badania pokazały, że chatboty radzą sobie dobrze w takich obszarach, jak rozumienie języka, uwaga i nazywanie obiektów. Jednak ich funkcje poznawcze mają wyraźne słabe punkty. Modele miały ogromne trudności z zadaniami wymagającymi złożonego myślenia abstrakcyjnego i zdolności przestrzennych. Szczególnie problematyczne okazały się takie testy jak rysowanie zegara czy łączenie numerów i liter w określonej sekwencji – zadania, które wymagają zaawansowanych zdolności planowania oraz myślenia wizualno-przestrzennego.
Te zagadnienia są kluczowe w ocenie zdrowia neurologicznego ludzi, a ich słaba realizacja przez AI wskazuje na ograniczenia związane z brakiem fizycznej percepcji i praktycznego doświadczenia, które są integralnymi elementami funkcji poznawczych u człowieka.
—
Czy AI będzie „pacjentem neurologicznym” przyszłości?
Autorzy badania sugerują jednoznacznie – sztuczna inteligencja jest daleka od zastąpienia lekarzy, zwłaszcza w tak skomplikowanych dziedzinach jak neurologia. Co więcej, ich odkrycia prowadzą do intrygującej spekulacji: czy w przyszłości specjaliści od neurologii będą zmuszeni diagnozować „wirtualnych pacjentów”? Czy możliwe, że kolejne generacje AI będą wymagały optymalizacji w celu poprawy swoich „zdolności poznawczych”?
Chociaż badanie nie ma praktycznego zastosowania w medycynie klinicznej, niesie za sobą wyraźne przesłanie o granicach technologii i jej rzeczywistej użyteczności. Wskazuje też na rosnącą potrzebę większej samoświadomości w projektowaniu systemów bardziej świadomych swoich ograniczeń.
—
Słownik pojęć
Modele językowe dużej skali (LLMs): Zaawansowane systemy AI, które są trenowane na ogromnych zbiorach danych tekstowych, by rozumieć i generować tekst w sposób zbliżony do osoby ludzkiej.
Montreal Cognitive Assessment (MoCA): Standardowe narzędzie stosowane przez lekarzy do oceny funkcji poznawczych, pomagające w wykrywaniu demencji i zaburzeń pamięci.
Funkcje wykonawcze: Zdolności umysłowe, które odpowiadają za planowanie, skupienie uwagi, przetwarzanie informacji oraz wykonywanie wielu zadań jednocześnie.
—
Sprawdź swoją wiedzę!
Jaki jest najwyższy wynik uzyskany przez chatbota w teście MoCA?
Model ChatGPT-4o uzyskał wynik 26 na 30, co stanowi najwyższy rezultat w badaniu.
Co uznaje się za normalny wynik w teście MoCA?
Uznaje się, że wynik 26 lub wyższy jest normą dla funkcji poznawczych u ludzi.
W jakich zadaniach chatboty AI najbardziej zawiodły?
Najwięcej problemów sprawiły zadania związane ze zdolnościami wizualno-przestrzennymi i funkcjami wykonawczymi, w tym rysowanie zegara i sekwencjonowanie liczb oraz liter.
Jak starsze wersje chatbotów wypadały w porównaniu do nowszych?
Starsze wersje osiągały gorsze wyniki, co przypomina schemat starzenia się i spadku zdolności poznawczych u ludzi.