Większość chatobotów AI wykazuje oznaki spadku zdolności poznawczych

W ostatnim zaskakującym odkryciu łączącym sztuczną inteligencję z neurologią, naukowcy zaobserwowali, że zaawansowane chatboty AI wykazują wzorce przypominające łagodne zaburzenia poznawcze, gdy poddawane są standardowym testom przesiewowym na demencję. Wyniki te otwierają fascynującą dyskusję o realnych możliwościach sztucznej inteligencji w środowisku medycznym.

—

Czy sztuczna inteligencja naprawdę zastąpi lekarzy?

Od lat pojawiają się śmiałe wizje dotyczące zastępowania lekarzy przez technologie AI, szczególnie w diagnostyce medycznej. Jednak badanie opublikowane w świątecznym numerze prestiżowego czasopisma medycznego The BMJ rzuca nowe światło na te aspiracje. Eksperci postanowili zbadać, czy zaawansowane modele językowe – takie jak ChatGPT czy Claude – są zdolne dorównać ludziom pod kątem funkcji poznawczych. Wyniki? Zaskakująco ludzkie – ale niestety, w bardziej negatywnym sensie.

Badacze poddali różne modele chatbotów testowi MoCA (Montreal Cognitive Assessment), który jest powszechnie stosowany w wykrywaniu wczesnych oznak demencji. W badaniu wzięły udział najnowsze wersje popularnych systemów AI: ChatGPT-4, ChatGPT-4o, Claude 3.5 „Sonnet” od Anthropic oraz Gemini 1.0 i 1.5 opracowane przez firmę Alphabet.

—

Wyniki testów – zaskoczenie czy rozczarowanie?

Najlepszym wynikiem mogła pochwalić się aktualizacja modelu ChatGPT-4o, uzyskując 26 na 30 punktów – ledwo osiągając próg uznawany za „normę” dla ludzi. ChatGPT-4 oraz Claude zdobyły po 25 punktów, co umiejscawia je poniżej progu typowego dla prawidłowej funkcji poznawczej. Zanotowano jednak wyraźne pogorszenie wyników w starszych wersjach chatbotów. Gemini 1.0 osiągnął tylko 16 punktów, co może być postrzegane jako wynik sugerujący głębokie ograniczenia poznawcze w kontekście testu.

Co ciekawe, starsze wersje modeli uzyskiwały jeszcze gorsze wyniki, co do złudzenia przypomina schemat starzenia się ludzkiego mózgu i utratę funkcji poznawczych z wiekiem. To odkrycie wzbudziło wątpliwości, czy rozwój tych narzędzi podąża w stronę, która rzeczywiście może w pełni zastąpić ludzką intuicję i wiedzę.

—

Jakie obszary okazały się piętą achillesową AI?

Wyniki badania pokazały, że chatboty radzą sobie dobrze w takich obszarach, jak rozumienie języka, uwaga i nazywanie obiektów. Jednak ich funkcje poznawcze mają wyraźne słabe punkty. Modele miały ogromne trudności z zadaniami wymagającymi złożonego myślenia abstrakcyjnego i zdolności przestrzennych. Szczególnie problematyczne okazały się takie testy jak rysowanie zegara czy łączenie numerów i liter w określonej sekwencji – zadania, które wymagają zaawansowanych zdolności planowania oraz myślenia wizualno-przestrzennego.

Te zagadnienia są kluczowe w ocenie zdrowia neurologicznego ludzi, a ich słaba realizacja przez AI wskazuje na ograniczenia związane z brakiem fizycznej percepcji i praktycznego doświadczenia, które są integralnymi elementami funkcji poznawczych u człowieka.

—

Czy AI będzie „pacjentem neurologicznym” przyszłości?

Autorzy badania sugerują jednoznacznie – sztuczna inteligencja jest daleka od zastąpienia lekarzy, zwłaszcza w tak skomplikowanych dziedzinach jak neurologia. Co więcej, ich odkrycia prowadzą do intrygującej spekulacji: czy w przyszłości specjaliści od neurologii będą zmuszeni diagnozować „wirtualnych pacjentów”? Czy możliwe, że kolejne generacje AI będą wymagały optymalizacji w celu poprawy swoich „zdolności poznawczych”?

Chociaż badanie nie ma praktycznego zastosowania w medycynie klinicznej, niesie za sobą wyraźne przesłanie o granicach technologii i jej rzeczywistej użyteczności. Wskazuje też na rosnącą potrzebę większej samoświadomości w projektowaniu systemów bardziej świadomych swoich ograniczeń.

—

Słownik pojęć

Modele językowe dużej skali (LLMs): Zaawansowane systemy AI, które są trenowane na ogromnych zbiorach danych tekstowych, by rozumieć i generować tekst w sposób zbliżony do osoby ludzkiej.

Montreal Cognitive Assessment (MoCA): Standardowe narzędzie stosowane przez lekarzy do oceny funkcji poznawczych, pomagające w wykrywaniu demencji i zaburzeń pamięci.

Funkcje wykonawcze: Zdolności umysłowe, które odpowiadają za planowanie, skupienie uwagi, przetwarzanie informacji oraz wykonywanie wielu zadań jednocześnie.

—

Sprawdź swoją wiedzę!

Jaki jest najwyższy wynik uzyskany przez chatbota w teście MoCA?

Model ChatGPT-4o uzyskał wynik 26 na 30, co stanowi najwyższy rezultat w badaniu.

Co uznaje się za normalny wynik w teście MoCA?

Uznaje się, że wynik 26 lub wyższy jest normą dla funkcji poznawczych u ludzi.

W jakich zadaniach chatboty AI najbardziej zawiodły?

Najwięcej problemów sprawiły zadania związane ze zdolnościami wizualno-przestrzennymi i funkcjami wykonawczymi, w tym rysowanie zegara i sekwencjonowanie liczb oraz liter.

Jak starsze wersje chatbotów wypadały w porównaniu do nowszych?

Starsze wersje osiągały gorsze wyniki, co przypomina schemat starzenia się i spadku zdolności poznawczych u ludzi.

Większość chatobotów AI wykazuje oznaki spadku zdolności poznawczych

NASA bada wnętrze Księżyca, aby zgłębić przepływ ciepła

Ukryty wiek Księżyca odsłonięty przez dawne erupcje wulkaniczne

Ukryty wiek Księżyca odsłonięty przez dawne erupcje wulkaniczne

Zapraszamy

Polub nas i bądź na bieżąco

Ostatnie Wpisy

Informacje

Welcome Back!

Retrieve your password

Add New Playlist