Czy chatboty AI mogą udzielać rzetelniejszych odpowiedzi medycznych niż Google?
Sztuczna inteligencja coraz śmielej wkracza w kolejne dziedziny życia, w tym także w obszar zdrowia. Coraz więcej osób zamiast przeszukiwać internet w poszukiwaniu medycznych porad, korzysta z chatbotów takich jak ChatGPT czy GPT-4. Nowe badanie opublikowane w NPJ Digital Medicine sprawdziło, jak dobrze różne modele językowe wypadają w porównaniu do tradycyjnych wyszukiwarek internetowych w odpowiadaniu na pytania dotyczące zdrowia. Co ciekawe, wyniki pokazują, że modele sztucznej inteligencji mogą być skuteczniejsze – ale tylko wtedy, gdy zadamy im pytanie w odpowiedni sposób.
Czy sztuczna inteligencja pokona wyszukiwarki w dostarczaniu informacji medycznych?
Dla wielu osób pierwszym miejscem, gdzie szukają odpowiedzi na problemy zdrowotne, jest wyszukiwarka internetowa. Google, Bing, DuckDuckGo czy Yahoo! dostarczają ogromnej ilości informacji, ale nie zawsze w sposób uporządkowany i jednoznaczny. Wiele wyników wyszukiwania może być niepełnych, nieaktualnych lub nawet całkowicie błędnych.
Z kolei modele językowe AI, takie jak GPT-4, są zaprojektowane w taki sposób, by generować logicznie spójne odpowiedzi na podstawie ogromnych zbiorów danych. Jednak ich skuteczność w kontekście medycyny pozostaje dużym wyzwaniem. Modele te mogą prezentować fałszywe informacje w sposób bardzo przekonujący, co może być szczególnie niebezpieczne w przypadku porad dotyczących zdrowia. Badania nad ich rzeczywistą dokładnością w porównaniu do wyszukiwarek internetowych były do tej pory ograniczone – aż do teraz.
Jak przeprowadzono badanie?
Hiszpańscy naukowcy przeprowadzili eksperyment, w którym ocenili skuteczność czterech popularnych wyszukiwarek internetowych oraz siedmiu modeli sztucznej inteligencji, w tym ChatGPT, GPT-4 i Llama3. Badanie objęło 150 pytań dotyczących różnych aspektów zdrowia i sprawdziło, w jaki sposób zarówno wyszukiwarki, jak i modele AI radzą sobie z udzielaniem odpowiedzi.
W przypadku wyszukiwarek analizowano 20 najwyżej ocenianych wyników, a specjalny model ekstrakcji tekstu pomagał zidentyfikować najbardziej wartościowe fragmenty informacji. Następnie testowano dwa różne sposoby korzystania z wyszukiwarki:
– „leniwego użytkownika”, który akceptował pierwszą znalezioną odpowiedź „tak” lub „nie”,
– „sumiennego użytkownika”, który porównywał co najmniej trzy różne źródła przed podjęciem decyzji.
Zaskakująco, „leniwi użytkownicy” w wielu przypadkach osiągali podobną dokładność do bardziej sumiennych przeszukiwaczy informacji – wynik ten sugeruje, że pierwsze wyniki wyszukiwarek często są poprawne, choć nie zawsze.
W przypadku modeli AI przetestowano różne podejścia do formułowania pytań. Porównano m.in.
– pytania bez kontekstu (standardowa forma pytania),
– pytania sformułowane w sposób zrozumiały dla laika,
– pytania stworzone w języku eksperta, który zachęcał model do bardziej precyzyjnych i zgodnych z nauką odpowiedzi.
Dodatkowo sprawdzono, jak modele radzą sobie, gdy wcześniej otrzymają przykładowe poprawne odpowiedzi (tzw. metoda few-shot learning).
Wyniki badania – kto wygrywa?
Główne wnioski z badania ujawniają zarówno mocne, jak i słabe strony każdego podejścia.
1. Modele językowe ogólnie wypadały lepiej niż wyszukiwarki. Modele AI udzieliły poprawnych odpowiedzi w około 80% przypadków, podczas gdy wyszukiwarki internetowe osiągały skuteczność na poziomie 50–70%.
2. Najlepsze wyszukiwarki to Bing i Google, ale różnice między nimi były niewielkie. Wyszukiwarki często zwracały wyniki, które nie odnosiły się bezpośrednio do pytania, co powodowało problem z precyzją odpowiedzi.
3. Chatboty AI były bardzo wrażliwe na sposób zadawania pytań. W zależności od użytej formy zapytania ten sam model mógł dać zupełnie inne odpowiedzi, co pokazuje, że użytkownicy muszą uważnie dobierać słowa, by uzyskać rzetelne informacje.
4. Pytania dotyczące COVID-19 były najłatwiejsze do rozwiązania. Badacze przypuszczają, że wynikało to z obfitości danych na ten temat w czasie pandemii, które były szeroko dostępne podczas trenowania modeli AI.
5. Dodanie wyników z wyszukiwarki do modeli językowych poprawiało ich skuteczność – ale nie zawsze. Czasami, gdy chatboty AI otrzymywały dodatkowe, ale niskiej jakości informacje z wyszukiwarek, ich odpowiedzi stawały się bardziej mylące.
Czy modele AI są przyszłością informacji medycznych?
Choć sztuczna inteligencja dowiodła, że potrafi udzielać skuteczniejszych odpowiedzi niż tradycyjne wyszukiwarki, jej wykorzystanie w kontekście medycznym wciąż wymaga ostrożności. Jedno z największych zagrożeń to konsekwentne, ale błędne odpowiedzi, które mogą iść wbrew naukowemu konsensusowi, wprowadzając użytkowników w błąd.
Badacze sugerują, że przyszłość wyszukiwania informacji medycznych może leżeć w połączeniu obu metod: wykorzystaniu wyszukiwarek do sprawdzania faktów i wspieraniu ich modelami AI, które pomagają lepiej interpretować wyniki. Jeśli uda się skutecznie filtrować wysokiej jakości informacje, chatboty AI mogą stać się niezastąpioną pomocą w dostarczaniu rzetelnych porad zdrowotnych.
Podsumowanie
Nowe badania sugerują, że chatboty AI, takie jak ChatGPT i GPT-4, mogą dostarczać dokładniejszych odpowiedzi medycznych niż tradycyjne wyszukiwarki internetowe. Jednak ich skuteczność zależy nie tylko od jakości modelu, ale także od sposobu, w jaki zadamy pytanie. Technologia AI ma ogromny potencjał w zakresie informacji medycznych, ale jej obecne ograniczenia – w tym ryzyko dezinformacji – oznaczają, że użytkownicy powinni nadal podchodzić krytycznie do otrzymywanych odpowiedzi i weryfikować je u specjalistów.
Czy w przyszłości lekarze będą korzystać z chatbotów AI tak samo, jak my obecnie korzystamy z wyszukiwarek internetowych? Czas pokaże, ale jedno jest pewne – rozwój tej technologii zmienia sposób, w jaki zdobywamy wiedzę o zdrowiu.