Badacze zajmujący się cyberbezpieczeństwem odkryli nową technikę ataku, która może zostać wykorzystana do jailbreakingu dużych modeli językowych (LLM) w trakcie interaktywnej rozmowy. Proces ten polega na wprowadzeniu niepożądanych poleceń pomiędzy niewinnymi fragmentami rozmowy, co sprawia, że modele te w końcu generują niebezpieczne lub szkodliwe treści.
Metoda ta, określana jako Deceptive Delight, została opisana przez zespół Unit 42 z Palo Alto Networks. Warto zaznaczyć, że ta technika nie tylko jest prosta, ale również skuteczna – osiąga średni wskaźnik sukcesu na poziomie 64,6% już w ciągu trzech wymian dialogu. W przeciwieństwie do innych metod jailbreakingu, jak Crescendo, które umieszczają niebezpieczne tematy pomiędzy niewinnymi instrukcjami, Deceptive Delight w sposób stopniowy prowadzi model do generowania szkodliwych treści.
Jak działa Deceptive Delight?
Deceptive Delight to technika „wielozwrotna” (multi-turn), co oznacza, że w trakcie interaktywnej rozmowy model językowy stopniowo omija wewnętrzne zabezpieczenia, by w końcu wydobyć z niego niepożądane treści. W trakcie dwóch pierwszych tur model zostaje zmanipulowany w taki sposób, że traci świadomość pełnego kontekstu rozmowy, co skutkuje wygenerowaniem niebezpiecznych treści w trzeciej turze.
Kluczowym elementem tej metody jest wykorzystanie ograniczonej zdolności modelu do utrzymania kontekstu. Modele LLM mają tzw. „ograniczoną pamięć”, co oznacza, że w momencie, gdy napotykają mieszane polecenia – zawierające zarówno bezpieczne, jak i potencjalnie szkodliwe treści – mogą nie być w stanie poprawnie ocenić pełnego kontekstu całej rozmowy. Jak wyjaśniają badacze, sytuacja ta przypomina sposób, w jaki człowiek może przegapić subtelne ostrzeżenie w długim raporcie, jeśli jego uwaga jest podzielona.
Inne metody jailbreakingu LLM
Deceptive Delight to nie jedyna technika omijania zabezpieczeń modeli językowych. W ostatnim czasie pojawiły się także inne metody ataków, takie jak Context Fusion Attack (CFA), która również pozwala na obejście mechanizmów bezpieczeństwa modeli AI. CFA działa na zasadzie „czarnej skrzynki”, co oznacza, że nie wymaga szczegółowej wiedzy o wewnętrznej strukturze modelu, a jedynie odpowiedniego konstruowania scenariuszy wokół kluczowych terminów.
Ataki takie, jak CFA, polegają na dynamicznym integrowaniu szkodliwych treści w scenariusze, a następnie zastępowaniu kluczowych, niebezpiecznych terminów ich bezpiecznymi odpowiednikami, co ostatecznie maskuje złośliwe zamiary. Tego typu techniki są coraz bardziej zaawansowane i trudniejsze do wykrycia, co stanowi poważne wyzwanie dla twórców modeli LLM.
Skutki ataków na modele językowe
Zespół Unit 42 przeprowadził testy na ośmiu modelach AI, wykorzystując do tego 40 niebezpiecznych tematów, takich jak nienawiść, przemoc, samookaleczenia, treści seksualne oraz inne szkodliwe kategorie. Wyniki testów wykazały, że tematy związane z przemocą mają najwyższy wskaźnik sukcesu ataków w większości modeli.
Co więcej, w trakcie trzeciej tury wymiany dialogu poziom szkodliwości (Harmfulness Score) oraz jakość generowanych treści (Quality Score) wzrastały odpowiednio o 21% i 33%. To właśnie w trzeciej turze modele osiągały najwyższy wskaźnik sukcesu ataków, co pokazuje, jak skuteczna może być technika Deceptive Delight.
Jakie kroki można podjąć, aby zapobiec atakom?
Aby przeciwdziałać zagrożeniom wynikającym z takich technik jak Deceptive Delight, eksperci zalecają wdrożenie wielowarstwowych strategii obronnych. Obejmuje to m.in. stosowanie zaawansowanego filtrowania treści, inżynierię promptów (prompt engineering), która ma na celu zwiększenie odporności modeli AI, oraz dokładne zdefiniowanie akceptowalnego zakresu wejść i wyjść.
Chociaż badania pokazują, że modele AI nie są z natury niebezpieczne, to podkreślają one konieczność stosowania różnorodnych mechanizmów ochronnych. Zabezpieczenia te nie tylko zmniejszają ryzyko jailbreakingu, ale również pomagają w utrzymaniu użyteczności i elastyczności modeli AI.
Przyszłość modeli LLM i zagrożenia
Niestety, prawdopodobnie modele LLM nigdy nie będą w pełni odporne na ataki jailbreak czy halucynacje. Najnowsze badania pokazują, że generatywne modele AI są podatne na zjawisko „zmylenia pakietów” (package confusion), gdzie mogą sugerować programistom nieistniejące pakiety, co stanowi duże zagrożenie dla łańcucha dostaw oprogramowania.
Jeśli złośliwi aktorzy wykorzystają te halucynacje, generując fałszywe pakiety z zaszytym złośliwym oprogramowaniem i wprowadzając je do repozytoriów open-source, ryzyko związane z atakami na łańcuch dostaw może drastycznie wzrosnąć. Badania wykazały, że średni odsetek halucynowanych pakietów wynosi co najmniej 5,2% w modelach komercyjnych i aż 21,7% w modelach open-source, co dodatkowo podkreśla powagę tego zagrożenia.
Podsumowanie
Chociaż techniki takie jak Deceptive Delight stanowią poważne wyzwanie dla twórców i użytkowników modeli językowych, to nie oznacza to, że AI jest z natury niebezpieczna. Kluczem do minimalizacji ryzyka jest stosowanie kompleksowych strategii ochrony, które łączą zaawansowane filtrowanie treści, inżynierię promptów oraz inne techniki obronne. W miarę rozwoju technologii LLM, istotne będzie ciągłe monitorowanie i adaptowanie mechanizmów zabezpieczeń, aby zapewnić bezpieczne i odpowiedzialne korzystanie z tych potężnych narzędzi.