Problemy z transkrypcją dźwięku w OpenAI Whisper – obawy inżynierów i badaczy
Inżynierowie oprogramowania, deweloperzy oraz badacze akademiccy wyrazili poważne obawy odnośnie systemu transkrypcji dźwięku Whisper, opracowanego przez OpenAI. Jak wynika z raportu Associated Press, system ten, pomimo swojego zaawansowania, nie jest wolny od błędów, które mogą mieć szerokie konsekwencje, szczególnie w kontekstach wymagających precyzji, takich jak służba zdrowia.
Generatywna AI i „halucynacje” – poważny problem w transkrypcji
Generatywna sztuczna inteligencja (AI) od dłuższego czasu boryka się z problemem tzw. „halucynacji”, czyli tworzeniem fikcyjnych informacji, które nie mają pokrycia w rzeczywistości. Tego typu błędy były szeroko omawiane w kontekście modeli językowych. Zaskakujące jest jednak to, że problem ten przenika również do systemów transkrypcji dźwięku, gdzie oczekuje się, że generowane teksty będą jak najbliższe oryginalnemu brzmieniu nagrań.
System Whisper, który miał za zadanie oferować dokładne transkrypcje audio, w rzeczywistości czasem dodaje do tekstu nieistniejące informacje – od komentarzy rasowych po wymyślone zalecenia medyczne. To szczególnie niepokojące, biorąc pod uwagę, że technologia ta zaczyna być stosowana w szpitalach i innych kontekstach medycznych, gdzie najmniejsze nieścisłości mogą prowadzić do poważnych konsekwencji.
Badania nad Whisper – jak często pojawiają się błędy?
Badacze z różnych dziedzin przeprowadzili szereg analiz, aby ocenić skalę problemu. Badacz z Uniwersytetu Michigan, który analizował transkrypcje z publicznych spotkań, stwierdził, że aż 8 na 10 transkrypcji zawierało „halucynacje”. Z kolei inżynier zajmujący się uczeniem maszynowym, po przeanalizowaniu ponad 100 godzin transkrypcji stworzonych przez Whisper, zauważył, że ponad połowa z nich zawierała błędy. Inny deweloper, który wygenerował 26 000 transkrypcji przy użyciu tego systemu, odnalazł „halucynacje” w niemal wszystkich z nich.
OpenAI odpowiada na krytykę
Rzecznik OpenAI, zapytany o te problemy, przyznał, że firma nieustannie pracuje nad poprawą dokładności swoich modeli, w tym redukowaniem „halucynacji”. Dodatkowo, wskazał, że polityki użytkowania Whispera zabraniają stosowania tej technologii w sytuacjach, które wymagają podejmowania decyzji o wysokiej stawce, takich jak konteksty medyczne.
„Dziękujemy badaczom za dzielenie się swoimi odkryciami” – dodał rzecznik, co sugeruje, że firma jest świadoma wyzwań, przed którymi stoi, i otwarta na współpracę z naukowcami w celu dalszego doskonalenia technologii.
Co dalej z Whisper?
Pomimo problemów, które zostały ukazane w badaniach, Whisper nadal ma szansę stać się ważnym narzędziem w obszarze transkrypcji dźwięku. Kluczem będzie dalsze usprawnianie technologii i unikanie jej użycia w obszarach, gdzie błędy mogą mieć poważne konsekwencje. Jak każde narzędzie bazujące na sztucznej inteligencji, system musi być starannie monitorowany i rozwijany, aby zapewnić maksymalną precyzję i bezpieczeństwo w zastosowaniach, które tego wymagają.
Dla użytkowników technologii AI, takich jak Whisper, powyższe przykłady mogą być ostrzeżeniem, aby podchodzić z ostrożnością do wyników generowanych przez te systemy – zwłaszcza w sytuacjach, gdzie nawet najmniejsza nieścisłość może prowadzić do poważnych konsekwencji.