Badanie ocenia zdolność GPT-4 do analizowania notatek medycznych w językach angielskim, hiszpańskim i włoskim, uzyskując zgodność z lekarzami na poziomie 79% przypadków.
W niedawno opublikowanym artykule w czasopiśmie Lancet Digital Health grupa badaczy przeanalizowała zdolność modelu GPT-4 do odpowiadania na predefiniowane pytania na podstawie notatek medycznych sporządzonych w trzech różnych językach: angielskim, hiszpańskim i włoskim. Wyniki badania rzucają nowe światło na możliwości sztucznej inteligencji w przetwarzaniu danych medycznych, podkreślając zarówno jej potencjał, jak i obecne ograniczenia.
Wyzwania związane z analizą notatek medycznych
Notatki medyczne stanowią bogactwo cennych informacji klinicznych, jednak ich nieustrukturyzowany charakter sprawia, że automatyczna analiza jest trudna do przeprowadzenia. Modele językowe, takie jak GPT-4, radzą sobie dobrze z wydobywaniem jawnych szczegółów, takich jak nazwy leków, jednak napotykają trudności przy interpretacji kontekstu i ukrytych znaczeń, co jest kluczowe w podejmowaniu decyzji medycznych.
Dodatkowym utrudnieniem jest duża zmienność stylów dokumentacji w zależności od lekarza czy placówki medycznej. Dotychczas prowadzone badania nad modelami językowymi koncentrowały się głównie na dokumentacji w języku angielskim, co ogranicza ich przydatność w środowiskach, gdzie używa się innych języków.
Eksperci podkreślają, że dalsze badania są niezbędne do poprawy zdolności modeli takich jak GPT-4 w przypadku bardziej złożonych zadań, lepszego rozumienia kontekstu oraz oceny ich skuteczności w różnych językach i warunkach.
Metodologia badania
Badanie objęło analizę retrospektywną przeprowadzoną w ośmiu szpitalach uniwersyteckich, zlokalizowanych w Stanach Zjednoczonych, Kolumbii, Singapurze i Włoszech. Udział w nim wzięły placówki zrzeszone w ramach konsorcjum 4CE, w tym m.in. Szpital Dziecięcy w Bostonie, Narodowy Uniwersytet Singapuru oraz Uniwersytet Pittsburski.
Każda placówka dostarczyła zdeidentyfikowane notatki medyczne, które zostały sporządzone między lutym 2020 roku a czerwcem 2023 roku. W sumie zebrano 56 notatek, z czego 42 zapisano w języku angielskim, 7 w hiszpańskim, a 7 w włoskim. Proces selekcji notatek obejmował pacjentów w wieku 18-65 lat, u których zdiagnozowano otyłość i COVID-19, choć kryteria te nie były obligatoryjne.
Analiza przeprowadzona została przy pomocy API GPT-4 w Pythonie, bazując na predefiniowanych pytaniach dotyczących danych medycznych. Lekarze oceniali odpowiedzi modelu w sposób anonimowy, wskazując na zgodność, częściową zgodność lub brak zgodności z wynikami GPT-4. Dodatkowo przeprowadzono analizy statystyczne, aby zidentyfikować rodzaje błędów, takie jak trudności w interpretacji, błędne wnioski czy błędna ekstrakcja danych.
Wyniki i spostrzeżenia
Badanie wykazało, że GPT-4 uzyskał poziom zgodności z lekarzami w 79% przypadków (622 z 784 odpowiedzi), co czyni go narzędziem bardzo skutecznym w analizie notatek medycznych. Najwyższą zgodność zaobserwowano w notatkach w językach hiszpańskim (88%) i włoskim (84%), podczas gdy dla języka angielskiego wskaźnik wyniósł 77%. Wyniki sugerują, że różnice mogą wynikać z większej złożoności dokumentacji medycznej prowadzonej w Stanach Zjednoczonych.
Jednym z głównych wyzwań dla modeli GPT okazała się interpretacja ukrytych informacji w dokumentacji. W przypadkach, gdzie jeden z lekarzy zgadzał się z modelem (11% odpowiedzi), różnice wynikały głównie z niejasnych interpretacji danych. Przykładowo, jeden z lekarzy uznał, że pacjent nie miał COVID-19 na podstawie sformułowania „niedawne zakażenie koronawirusem”, podczas gdy GPT-4 pozostawił tę kwestię otwartą. Natomiast w 10% przypadków problemy dotyczyły błędów w ekstrakcji, takich jak przeoczenie ważnych informacji zawartych w notatkach.
W przypadkach, gdzie obaj lekarze nie zgadzali się z wynikami modelu, dominowały problemy z interpretacją (59%), błędy ekstrakcji (29%) oraz tzw. „halucynacje” (13%), czyli generowanie informacji, które nie były obecne w dokumentacji. Przykładowo, GPT-4 zdarzało się błędnie wnioskować, że pacjent miał COVID-19, mimo braku odpowiednich danych.
Potencjał i ograniczenia GPT-4
GPT-4 wykazał wysoką czułość w identyfikacji parametrów takich jak wiek (94%), otyłość (97%) czy status COVID-19 (96%). Jednak jego dokładność w klasyfikacji typów notatek medycznych była znacznie niższa (22%), co wynikało z trudności w zrozumieniu ukrytych struktur dokumentacji.
Choć badanie potwierdziło, że GPT-4 może być skutecznie wykorzystywany w analizie notatek medycznych w różnych językach, największym wyzwaniem pozostaje interpretacja kontekstu oraz poprawne wnioskowanie na podstawie danych pośrednich. Wskazuje to na potrzebę dalszego rozwijania modeli językowych, szczególnie w kierunku optymalizacji do specjalistycznych zadań medycznych.
Podsumowanie
Badanie przeprowadzone na próbie notatek medycznych z ośmiu placówek pokazało, że GPT-4 jest obiecującym narzędziem w analizie danych klinicznych, zwłaszcza w środowiskach wielojęzycznych. Model osiągnął wysoki poziom zgodności z lekarzami, zwłaszcza w językach hiszpańskim i włoskim, co pokazuje jego potencjał w różnych kontekstach językowych i kulturowych. Jednak ograniczenia związane z interpretacją kontekstu i zmiennością stylu dokumentacji wymagają dalszych prac badawczo-rozwojowych, aby w pełni wykorzystać możliwości tej technologii w praktyce medycznej.