Google wykorzystuje technologię znakowania wodnego przy użyciu sztucznej inteligencji, aby automatycznie identyfikować tekst generowany przez ich chatbota Gemini. Ta technika ma na celu ułatwienie odróżniania treści tworzonych przez AI od tych pisanych przez ludzi, co może pomóc w zapobieganiu nadużyciom, takim jak szerzenie dezinformacji, oszustwa akademickie lub biznesowe oraz inne nieetyczne działania. Znakowanie wodne jest innowacyjnym podejściem, które ma na celu zminimalizowanie ryzyka niewłaściwego wykorzystania technologii generatywnego AI.
Google postanowił pójść krok dalej i udostępnił swoją technologię w formie open-source, aby inni twórcy modeli językowych mogli również korzystać z tej metody w swoich rozwiązaniach. Jak wyjaśnia Pushmeet Kohli z zespołu Google DeepMind, jest to istotny krok w kierunku tworzenia bardziej niezawodnych narzędzi do identyfikacji treści generowanych przez AI. Choć SynthID – narzędzie opracowane przez Google – nie jest idealnym rozwiązaniem, stanowi kluczowy element w budowaniu bardziej zaawansowanych systemów identyfikacji.
Niezależni badacze są równie optymistyczni względem tego podejścia. Scott Aaronson z Uniwersytetu Teksańskiego uważa, że choć żadna obecna metoda znakowania wodnego nie jest w pełni niezawodna, może pomóc w identyfikowaniu fałszywych informacji generowanych przez AI oraz w ograniczaniu oszustw akademickich. Aaronson wyraził nadzieję, że inne firmy, takie jak OpenAI czy Anthropic, podążą za przykładem Google DeepMind i również wprowadzą podobne mechanizmy.
W maju tego roku Google DeepMind ogłosił wprowadzenie metody SynthID do znakowania treści generowanych przez AI w ramach usług Gemini i Veo AI. Firma opublikowała również szczegółowe badania w czasopiśmie Nature, w których porównano skuteczność SynthID z innymi technikami znakowania wodnego. Okazało się, że SynthID przewyższał konkurencyjne rozwiązania, szczególnie pod względem wykrywalności odpowiedzi generowanych przez modele AI.
Znakowanie wodne w podejściu Google DeepMind opiera się na algorytmie „tournament sampling”, który podczas generowania tekstu subtelnie wpływa na wybór konkretnych słów, tworząc w ten sposób unikalny, statystyczny podpis możliwy do wykrycia przez dedykowane oprogramowanie. Proces ten polega na porównywaniu różnych słów w systemie turniejowym, gdzie każde słowo „rywalizuje” z innymi, a ostateczny wybór dokonywany jest na podstawie funkcji znakowania wodnego. Jak zauważa Furong Huang z Uniwersytetu Maryland, wielowarstwowy charakter tego podejścia zwiększa trudność prób odwrócenia lub usunięcia znaku wodnego.
Mimo to, jak ostrzega Hanlin Zhang z Uniwersytetu Harvarda, „zdeterminowany przeciwnik” posiadający ogromne zasoby obliczeniowe mógłby teoretycznie usunąć takie znaki wodne. Jednak SynthID jest uznawane za sensowne podejście, biorąc pod uwagę potrzebę skalowalnego rozwiązania w zakresie znakowania treści generowanych przez AI.
Zespół badawczy Google DeepMind przetestował dwie wersje SynthID. Jedna z nich była bardziej skoncentrowana na wykrywalności znaku wodnego, ale kosztem minimalnych zniekształceń generowanego tekstu. Z kolei wersja bez zniekształceń okazała się skuteczna podczas eksperymentu na żywo, w którym przeanalizowano 20 milionów odpowiedzi generowanych przez Gemini – bez zauważalnego wpływu na jakość generowanych treści.
Warto jednak zauważyć, że znakowanie wodne działa najlepiej w przypadku dłuższych odpowiedzi chatbotów, które mogą być sformułowane na wiele różnych sposobów – na przykład w przypadku esejów czy e-maili. Metoda nie była jeszcze testowana w kontekście zadań matematycznych czy problemów związanych z kodowaniem, co stanowi kolejny krok w dalszym rozwoju tego rozwiązania.
Zarówno zespół Google DeepMind, jak i niezależni badacze podkreślają potrzebę dodatkowych zabezpieczeń przed nadużyciami związanymi z chatbotami AI. Furong Huang sugeruje, że konieczne mogą być również silniejsze regulacje prawne. Znakowanie wodne mogłoby stać się wymogiem prawnym, co pomogłoby zwiększyć bezpieczeństwo i zaufanie do modeli językowych, zarówno w kontekście użytkowników indywidualnych, jak i korporacyjnych.