Badania wykazują niedostateczne testy modeli językowych w opiece zdrowotnej
Nowe badania systematyczne ujawniają, że jedynie 5% ocen modeli językowych stosowanych w opiece zdrowotnej opiera się na rzeczywistych danych pacjentów. Badania te wskazują na istotne luki w obszarach takich jak ocena uprzedzeń, równość oraz szeroki zakres zadań, co podkreśla potrzebę bardziej wszechstronnych metod oceny.
Szybki rozwój zastosowań sztucznej inteligencji w medycynie
Sztuczna inteligencja (AI) rozwija się w dziedzinie opieki zdrowotnej w zawrotnym tempie, szczególnie dzięki postępom w modelach językowych (LLM – large language models). W przeciwieństwie do predykcyjnej AI, która prognozuje wyniki, generatywna AI wykorzystująca LLM potrafi tworzyć różnorodne treści, takie jak obrazy, dźwięki czy tekst. To sprawia, że LLM stają się cennym narzędziem w medycynie, choć ich zastosowanie wciąż budzi kontrowersje.
Modele te, na podstawie danych wejściowych, generują strukturalne i spójne odpowiedzi tekstowe, co jest szczególnie przydatne w zadaniach takich jak prowadzenie notatek medycznych. W niektórych systemach opieki zdrowotnej w USA LLM są już wykorzystywane do takich celów, a także bada się ich potencjał w poprawie efektywności leczenia pacjentów. Niemniej jednak, gwałtowny wzrost zainteresowania LLM doprowadził do ich nieustrukturyzowanego testowania w różnych dziedzinach, co przyniosło mieszane rezultaty.
Problemy z oceną wydajności modeli językowych
Pomimo dużego potencjału, wyniki badań nad LLM w kontekście medycznym są niejednoznaczne. W niektórych przypadkach odpowiedzi generowane przez te modele są powierzchowne i nieprecyzyjne, natomiast inne badania sugerują, że ich dokładność jest porównywalna z ludzkimi specjalistami.
Te różnice wyraźnie wskazują na konieczność ustandaryzowanej ewaluacji LLM w kontekście klinicznym. Obecne oceny są zbyt zróżnicowane, a brak wypracowanych ram oceniania sprawia, że nie można jednoznacznie stwierdzić, w jakim stopniu te modele rzeczywiście mogą poprawić jakość opieki zdrowotnej.
Metodologia badania
Badania przeprowadzone przez naukowców z USA objęły systematyczny przegląd prac naukowych i preprintów opublikowanych między styczniem 2022 a lutym 2024 roku, dotyczących oceny LLM w opiece zdrowotnej. Okres ten został wybrany ze względu na pojawienie się ChatGPT w listopadzie 2022, co znacząco wpłynęło na rozwój i zainteresowanie generatywną sztuczną inteligencją.
Trzech niezależnych recenzentów przeanalizowało wybrane badania, skupiając się na tych, które dotyczyły oceny LLM w kontekście opieki zdrowotnej. W ramach kategorii wykluczono badania dotyczące podstawowych badań biologicznych oraz zadań multimodalnych.
Wyniki badania
Z 519 uwzględnionych w badaniu publikacji, zaledwie 5% opierało swoje wyniki na rzeczywistych danych pacjentów. Większość badań wykorzystywała dane generowane przez ekspertów lub pytania egzaminacyjne z zakresu medycyny, co znacząco ogranicza wiarygodność ocen.
Najwięcej uwagi poświęcono zadaniom związanym z wiedzą medyczną, takim jak testy związane z amerykańskim egzaminem licencyjnym dla lekarzy (U.S. Medical Licensing Examination). Zadania związane z opieką nad pacjentami, takie jak diagnozowanie i rekomendacje terapeutyczne, również były stosunkowo często oceniane.
Z kolei zadania administracyjne, takie jak prowadzenie notatek medycznych czy przypisywanie kodów do faktur, rzadko pojawiały się w badaniach. W kontekście zadań przetwarzania języka naturalnego (NLP), dominowały zadania związane z odpowiadaniem na pytania, chociaż bardziej zaawansowane funkcje, takie jak dialogi i podsumowywanie tekstów, były słabo eksplorowane.
Wyniki oceny LLM najczęściej koncentrowały się na dokładności (95,4%) oraz kompleksowości (47%). Bardzo mało badań uwzględniało aspekty etyczne, takie jak uprzedzenia, toksyczność i sprawiedliwość.
Wnioski i przyszłe wyzwania
Przegląd wskazuje na duże luki w obecnych metodach oceny modeli językowych w opiece zdrowotnej. Brak standaryzacji oraz niepełne wykorzystanie rzeczywistych danych pacjentów to główne wyzwania, z którymi muszą mierzyć się badacze. Naukowcy postulują, aby więcej badań opierało się na rzeczywistych scenariuszach klinicznych oraz aby rozszerzono zastosowania LLM na inne obszary medycyny, takie jak zadania administracyjne czy mniej popularne specjalizacje medyczne.
Badania te podkreślają potrzebę stworzenia jednolitych ram oceny, które pozwolą lepiej zrozumieć potencjał LLM w opiece nad pacjentami, a także zminimalizować ryzyko związane z uprzedzeniami i błędami systemu.