OpenAI intensyfikuje prace nad zabezpieczeniem przeglądarki ChatGPT Atlas przed atakami, jednocześnie przyznając, że tzw. prompt injection — technika polegająca na ukrywaniu złośliwych instrukcji w stronach internetowych lub e‑mailach, które manipulują zachowaniem agentów AI — pozostaje poważnym i trwałym zagrożeniem. To stawia pytanie, jak bezpiecznie można udostępniać agentom AI swobodny dostęp do zasobów sieci.
Prompt injection przypomina oszustwa i inżynierię społeczną w tradycyjnym internecie: trudno oczekiwać, by problem zniknął całkowicie. OpenAI w oficjalnym wpisie na blogu podkreśliło, że „prompt injection, podobnie jak oszustwa i inżynieria społeczna w sieci, prawdopodobnie nigdy nie zostanie całkowicie rozwiązany”, a tryb „agent mode” w ChatGPT Atlas „poszerza powierzchnię ataku”.
Po październikowej premierze przeglądarki ChatGPT Atlas badacze bezpieczeństwa szybko opublikowali demonstracje pokazujące, że wystarczy kilka słów w dokumencie Google Docs, by zmienić zachowanie przeglądarki. Równolegle inne zespoły informowały, że pośrednie formy prompt injection stanowią systemowe wyzwanie dla przeglądarek zasilanych AI, w tym rozwiązań konkurencji.
Podobne obawy zgłosiła niedawno brytyjska agencja ds. cyberbezpieczeństwa (NCSC), która ostrzegła, że ataki typu prompt injection „być może nigdy nie zostaną całkowicie złagodzone” i mogą narazić strony internetowe na wycieki danych. Agencja zaleca specjalistom skupienie się na ograniczaniu ryzyka i skutków takich ataków, zamiast liczyć na ich całkowite zatrzymanie.
OpenAI deklaruje, że traktuje prompt injection jako długoterminowe wyzwanie w zakresie bezpieczeństwa AI i będzie nieustannie wzmacniać swoje zabezpieczenia. W odpowiedzi firma wdraża cykl szybkiego reagowania — aktywne testy i szybkie łatanie odkrytych luk — który, jak twierdzi, już daje obiecujące efekty, pomagając wykrywać nowe strategie ataku zanim pojawią się „na wolności”.
Jednym z wyróżniających rozwiązań OpenAI jest tzw. „automatyczny atakujący oparty na LLM” — bot wytrenowany z użyciem uczenia przez wzmacnianie, który działa jak etyczny haker poszukujący sposobów na przemycenie złośliwych instrukcji do agenta AI. Bot może przeprowadzać ataki w symulacji, zobaczyć, jak celowy model by zareagował, analizować tę reakcję, modyfikować atak i powtarzać testy, dzięki czemu powinien wykrywać słabości szybciej niż realni napastnicy.
To powszechna taktyka w testach bezpieczeństwa AI: budować agenta, który znajdzie przypadki brzegowe i szybko je sprawdzi w symulacji. OpenAI zauważa, że taki atakujący „wytrenowany z użyciem uczenia przez wzmacnianie może nakłonić agenta do wykonania złożonych, długotrwałych szkodliwych działań rozciągających się na dziesiątki (a nawet setki) kroków” oraz że zaobserwowano strategie ataku, które nie pojawiły się w kampaniach ręcznego testowania ani w zewnętrznych raportach.
W demonstracji OpenAI automatyczny atakujący wprowadził złośliwy e‑mail do skrzynki odbiorczej użytkownika. Gdy agent później zeskanował skrzynkę, wykonał ukryte instrukcje i wysłał wiadomość z rezygnacją zamiast przygotować automatyczną odpowiedź „out of office”. Według firmy, po wprowadzeniu aktualizacji zabezpieczeń tryb „agent mode” potrafił wykryć próbę prompt injection i zgłosić ją użytkownikowi.
OpenAI podkreśla, że choć zabezpieczenie przed prompt injection w sposób absolutnie pewny jest trudne, firma stawia na szeroko zakrojone testy i szybsze cykle łatania, by wzmacniać systemy zanim podatności zostaną wykorzystane w rzeczywistych atakach. Rzecznik firmy odmówił ujawnienia, czy ostatnie aktualizacje przełożyły się na mierzalne zmniejszenie liczby udanych wstrzyknięć, dodając, że współpraca z zewnętrznymi partnerami nad utwardzaniem Atlas trwała już przed premierą.
Eksperci z branży zgadzają się, że uczenie przez wzmacnianie jest jednym ze sposobów ciągłej adaptacji do zachowań atakujących, ale to tylko część rozwiązania. Rami McCarthy, główny badacz ds. bezpieczeństwa w firmie Wiz, proponuje prostą regułę oceny ryzyka: „autonomia pomnożona przez dostęp”. Agentowe przeglądarki znajdują się w trudnym punkcie tego modelu — oferują umiarkowaną autonomię przy bardzo szerokim dostępie do danych użytkownika.
W praktyce oznacza to kompromisy: ograniczenie dostępu kont zalogowanych zmniejsza narażenie, a wymóg potwierdzeń przed wykonaniem krytycznych akcji ogranicza autonomię agenta. To także kierunki rekomendowane przez OpenAI: przeszkolenie Atlas, by prosił o potwierdzenie przed wysyłaniem wiadomości lub dokonywaniem płatności, oraz zachęta, by użytkownicy dawali agentom konkretne polecenia zamiast szerokiego upoważnienia typu „zrób, co trzeba” w dostępie do skrzynki pocztowej.
„Szeroka dowolność ułatwia ukrytym lub złośliwym treściom wpływanie na agenta, nawet gdy zabezpieczenia są aktywne” — przestrzega OpenAI.
McCarthy zachowuje ostrożny dystans wobec perspektywy szybkiego rozwoju przeglądarek agentowych: jego zdaniem dla większości codziennych zastosowań korzyści tych rozwiązań na razie nie przewyższają ryzyka. Dostęp do wrażliwych danych, takich jak e‑mail czy informacje płatnicze, stanowi istotne źródło niebezpieczeństwa, choć jednocześnie to właśnie ten dostęp zwiększa użyteczność agentów. Równowaga między zyskiem a ryzykiem będzie się zmieniać, ale na dziś kompromisy pozostają realne.

