Nowe badanie ujawnia, że duże modele językowe (LLM) przewyższają lekarzy pod względem trafności diagnostycznej, jednak wymagają strategicznej integracji, aby poprawić proces podejmowania decyzji klinicznych, bez zastępowania ludzkiej wiedzy specjalistycznej.
Czy sztuczna inteligencja może poprawić diagnostykę kliniczną?
Błędy diagnostyczne, które wynikają z problemów systemowych i poznawczych, mogą powodować poważne szkody dla pacjentów. W związku z tym poprawa dokładności diagnostycznej wymaga metod, które umożliwią lepsze radzenie sobie z wyzwaniami poznawczymi, jakie wiążą się z procesem klinicznego rozumowania. Tradycyjne metody, takie jak praktyki refleksyjne, programy edukacyjne oraz narzędzia wspomagające podejmowanie decyzji, nie okazały się jednak wystarczająco efektywne w poprawianiu dokładności diagnoz.
Ostatnie postępy w dziedzinie sztucznej inteligencji, zwłaszcza duże modele językowe (LLM), dają nadzieję na wspieranie diagnostyki poprzez symulowanie ludzkiego rozumowania i odpowiedzi. LLM-y potrafią analizować skomplikowane przypadki medyczne oraz udzielać wsparcia w podejmowaniu decyzji klinicznych, jednocześnie wykazując empatię w interakcji z użytkownikiem.
Obecnie wykorzystanie LLM-ów w opiece zdrowotnej jest w dużej mierze uzupełniające, mające na celu wzmocnienie eksperckiej wiedzy lekarzy. Jednakże, ze względu na ograniczone szkolenie i integrację lekarzy w zakresie korzystania z tych narzędzi, konieczne jest lepsze zrozumienie ich wpływu na opiekę nad pacjentami.
Przebieg badania
W opisywanym badaniu, opublikowanym w JAMA Network Open, badacze przeprowadzili randomizowane, jednokierunkowe badanie, mające na celu ocenę, czy duże modele językowe mogą wspomóc lekarzy w procesie diagnostycznym. Lekarze specjalizujący się w medycynie rodzinnej, ratunkowej oraz wewnętrznej zostali zrekrutowani do udziału, a sesje odbywały się osobiście lub zdalnie.
Uczestnicy badania mieli godzinę na rozwiązanie sześciu średnio skomplikowanych przypadków klinicznych. Grupa interwencyjna miała dostęp do narzędzi LLM, takich jak ChatGPT Plus i GPT-4, natomiast grupa kontrolna korzystała wyłącznie z tradycyjnych zasobów diagnostycznych.
Przypadki kliniczne obejmowały szczegółowe historie pacjentów, wyniki badań fizykalnych oraz wyniki testów laboratoryjnych. Wybrane przypadki były oceniane przez zespół czterech lekarzy, aby zapewnić odpowiednią różnorodność chorób, wykluczając jednocześnie bardzo proste i skrajnie rzadkie przypadki.
Uczestnicy mieli za zadanie stworzyć listę różnicowych diagnoz, uwzględniając czynniki przemawiające za i przeciw każdej z nich. Na końcu wybierali najbardziej prawdopodobną diagnozę oraz proponowali dalsze kroki terapeutyczne. Ich odpowiedzi były oceniane pod kątem poprawności diagnozy końcowej oraz umiejętności diagnostycznych.
Wyniki badania
Badanie wykazało, że użycie LLM-ów przez lekarzy nie poprawiło ich umiejętności diagnostycznych w trudnych przypadkach w porównaniu do tradycyjnych metod diagnostycznych. Co jednak szczególnie ciekawe, same LLM-y radziły sobie znacznie lepiej od lekarzy w procesie diagnozowania przypadków.
Te wyniki były spójne niezależnie od poziomu doświadczenia lekarzy, co sugeruje, że samo udostępnienie LLM-ów niekoniecznie poprawia zdolności diagnostyczne lekarzy. Nie zaobserwowano również istotnych różnic w ocenie efektywności rozwiązywania przypadków między grupami. Konieczne są jednak kolejne badania na większych próbach, aby ocenić, czy LLM-y mogą poprawić efektywność procesu diagnostycznego.
Samodzielne działanie LLM-ów było lepsze od pracy zarówno indywidualnych lekarzy, jak i zespołów lekarzy wspomaganych LLM-ami. Wynik ten jest zgodny z wcześniejszymi badaniami na temat innych technologii opartych na dużych modelach językowych.
Wnioski
LLM-y oferują ogromne możliwości w zakresie wspierania procesu diagnostycznego. Pomimo udanych diagnoz dostarczanych przez LLM-y, wyniki te nie powinny być interpretowane jako sygnał, że LLM-y mogą samodzielnie podejmować decyzje kliniczne bez nadzoru lekarza.
„W miarę postępów w badaniach nad sztuczną inteligencją oraz jej integracją w medycynie, coraz ważniejsze będzie rzetelne mierzenie wydajności diagnostycznej, korzystając z realistycznych i klinicznie istotnych metod oceny.”
Integracja LLM-ów w praktyce klinicznej wymaga opracowania skutecznych strategii projektowania strukturalnych zapytań oraz przeszkolenia lekarzy w zakresie korzystania z bardziej szczegółowych pytań, co mogłoby zoptymalizować współpracę między lekarzami a LLM-ami w procesie diagnostycznym. Niemniej jednak, wykorzystanie LLM-ów do poprawy zdolności diagnostycznych powinno polegać na traktowaniu tych narzędzi jako uzupełnienia, a nie zamiennika dla ludzkiej wiedzy medycznej.
Bibliografia:
– Goh, E., Gallo, R., Hom, J., et al. (2024). Large Language Model Influence on Diagnostic Reasoning: A Randomized Clinical Trial. JAMA Network Open 7(10); e2440969–e2440969. doi:10.1001/jamanetworkopen.2024.40969.