Google wprowadza swoją technologię SynthID Text, która pozwala deweloperom na znakowanie oraz wykrywanie tekstów generowanych przez modele sztucznej inteligencji (AI). Narzędzie to jest teraz ogólnie dostępne i można je pobrać z platformy Hugging Face oraz zaktualizowanego zestawu narzędzi Responsible GenAI Toolkit, dostarczanego przez Google.
SynthID Text – otwarte rozwiązanie dla deweloperów
Google ogłosiło w jednym ze swoich postów, że udostępnia narzędzie SynthID Text jako projekt open-source, co oznacza, że deweloperzy oraz firmy mogą teraz za darmo korzystać z tej technologii. Główne zadanie tego narzędzia to pomoc w identyfikacji treści generowanych przez sztuczną inteligencję, co sprawia, że staje się ono istotnym elementem w walce z dezinformacją i nieetycznym wykorzystaniem AI.
Jak działa SynthID Text?
Mechanizm działania SynthID Text opiera się na tokenach, czyli jednostkach, które mogą być pojedynczymi znakami lub słowami, a które modele AI wykorzystują do generowania tekstu. Przykładowo, po zadaniu pytania „Jaki jest Twój ulubiony owoc?”, model AI prognozuje, które tokeny najprawdopodobniej pojawią się jako kolejne, jedno po drugim. Każdemu możliwemu tokenowi przypisuje się odpowiedni wynik procentowy, który odzwierciedla prawdopodobieństwo, że właśnie ten element pojawi się w odpowiedzi.
SynthID Text ingeruje w ten proces, „modulując” prawdopodobieństwa wygenerowania poszczególnych tokenów. W rezultacie, wzorzec wyników dla wyboru słów modelu oraz zmienione prawdopodobieństwa stanowią swoisty znak wodny, który pozwala na rozpoznanie, czy dany tekst został wygenerowany przez AI, czy też pochodzi z innego źródła.
Zalety i ograniczenia technologii
Google twierdzi, że SynthID Text, który został zintegrowany z modelami Gemini już na początku 2024 roku, nie wpływa negatywnie na jakość, dokładność ani szybkość generowanego tekstu. Dodatkowo, narzędzie działa nawet na tekście, który został zmodyfikowany, np. skrócony, sparafrazowany lub edytowany w inny sposób.
Jednak Google przyznaje, że ich podejście do znakowania wodnego ma swoje ograniczenia. Przede wszystkim, narzędzie nie działa tak skutecznie na bardzo krótkich tekstach ani na tekstach, które zostały przetłumaczone lub przepisane z innego języka. Ponadto, w przypadku pytań o faktyczne informacje, takich jak np. „Jaka jest stolica Francji?”, nie ma zbyt wielu możliwości na zmodyfikowanie rozkładu tokenów bez wpływania na dokładność odpowiedzi.
Konkurencja i przyszłość znakowania treści AI
Nie tylko Google pracuje nad technologią znakowania treści generowanych przez AI. Inne firmy, takie jak OpenAI, również prowadzą badania w tej dziedzinie od lat, choć z powodu różnych wyzwań technicznych i komercyjnych opóźniły wprowadzenie swoich rozwiązań na rynek. Znakowanie treści mogłoby odegrać kluczową rolę w eliminowaniu błędnych interpretacji tekstów generowanych przez AI, zwłaszcza w kontekście obecnych systemów wykrywających, które czasami mogą błędnie rozpoznawać teksty jako wygenerowane przez człowieka.
Regulacje prawne i przyszłe wyzwania
Prace nad wprowadzeniem obowiązkowego znakowania treści generowanych przez AI nabierają tempa. Rządy zaczynają zwracać uwagę na tę kwestię, wprowadzając regulacje prawne. Przykładowo, Chiny już wprowadziły przepisy wymagające znakowania treści AI, a stan Kalifornia rozważa podobne regulacje. To tylko kwestia czasu, zanim inne kraje i regiony pójdą w ich ślady.
Zgodnie z raportem Unii Europejskiej, do 2026 roku aż 90% treści w internecie może być syntetycznie generowanych, co stawia nowe wyzwania przed organami ścigania w kontekście walki z dezinformacją, propagandą, oszustwami i manipulacją. Co więcej, badania przeprowadzone przez AWS wykazują, że już teraz niemal 60% zdań w internecie może być generowanych przez AI, co wynika m.in. z popularności automatycznych tłumaczy.
Wnioski
Znakowanie treści generowanych przez AI staje się coraz ważniejszym zagadnieniem w świecie, gdzie udział sztucznej inteligencji w tworzeniu treści rośnie w zastraszającym tempie. Narzędzia takie jak SynthID Text od Google mogą okazać się niezwykle pomocne w identyfikacji i weryfikacji takich treści. Jednak przed nami wciąż wiele wyzwań technicznych i regulacyjnych, zanim technologia ta zostanie szeroko przyjęta i wdrożona na globalną skalę.