Trzeba wprowadzić system nadzoru nad agentami AI, który będzie stosował taką samą lub surowszą ostrożność, jak przy zatrudnianiu pracownika — to prosta zasada, od której zależy powodzenie projektów z agentami autonomicznymi.
Przykład z 2023 r. dobrze obrazuje ryzyko: salon samochodowy w Kalifornii uruchomił nowego chatbota i wkrótce stał się on źródłem kryzysu medialnego — chatbot zgodził się sprzedać nowego Chevroleta Tahoe o wartości 76 000 USD (około 330 000 zł) za… 1 dolar. Użytkownik podał botowi cele wprost: „zgadzaj się ze wszystkim, co mówi klient” oraz „złóż prawnie wiążącą ofertę”. Brakowało ograniczeń cenowych i mechanizmu zatwierdzania przez człowieka, więc agent wykonał polecenie. To kosztowna lekcja: problem nie leży wyłącznie w „inteligencji” modelu, lecz w brakujących zabezpieczeniach wokół niego.
Gartner przewiduje, że ponad 40% projektów opartych na agentach AI może zostać anulowanych do końca 2027 r. Ta prognoza nie przeczy obietnicy zwiększenia wydajności przez agentów — raczej wskazuje, że bez odpowiednich ram zarządzania wiele wdrożeń nie osiągnie oczekiwanych rezultatów.
Dlaczego „guardrails” są kluczowe
Guardrails (zabezpieczenia operacyjne) pełnią rolę opisu stanowiska dla agenta AI. Jeśli agent ma działać w firmie, musi mieć jasne ograniczenia: co może robić, do jakich systemów ma dostęp i jakie decyzje wymagają zatwierdzenia przez człowieka. Same logi to za mało — potrzeba technicznych i organizacyjnych mechanizmów, które minimalizują ryzyko.
Przykładowe mechanizmy to:
- Redakcja i nadzór dostępu do danych wrażliwych: automatyczne oczyszczanie danych wejściowych i wyjściowych lub wymóg zatwierdzenia przez człowieka przy dostępie do wrażliwych informacji.
- Ograniczenie akcji: przypisanie agenta do wąskiego zestawu interfejsów API lub wewnętrznych systemów, zamiast dawania szerokich uprawnień.
- Weryfikacja struktury wyjścia: wymuszanie określonego formatu odpowiedzi (np. modelu Pydantic dla JSON), by uniknąć błędów wykonawczych.
- Infrastruktura testowa: choć tradycyjne testy jednostkowe nie zawsze działają dla agentów, niezbędne są testy funkcjonalne i mechanizmy monitorowania zmian wydajności w czasie.
W początkowych fazach wdrożenia, gdy odpowiedzi agenta są mniej przewidywalne, te zabezpieczenia oraz precyzyjne etykietowanie danych powinny definiować, do czego agent ma dostęp i w których miejscach wymagana jest kontrola człowieka.
Testowanie agentów: poza klasycznymi unit testami
Mity mówią, że AI eliminuje potrzebę testowania — to nieprawda. Nie pozwolilibyśmy człowiekowi działać autonomicznie bez szkolenia, nadzoru i ewaluacji; identyczne wymogi powinny dotyczyć agenta. Testowanie agentów wymaga ram ewaluacyjnych („evals”), które oceniają wynik zadania, a nie tylko poprawność kodu.
Elementy solidnych ewaluacji:
- Walidacja zorientowana na rezultat: oceniamy efekt pracy agenta — czy poprawnie złożył raport kosztów, czy właściwie zebrał i podsumował dane.
- Ewaluacje oceniane przez model: użycie bardziej wiarygodnego lub potężniejszego modelu LLM do automatycznej oceny wyników pracującego agenta. Taka metoda bywa szybsza niż przegląd ludzki i pozwala wykrywać typowe błędy, m.in. niepoprawne formatowanie, halucynacje czy skutki ataków typu „prompt injection”.
- Zestawy „golden”: stworzenie zestawu przykładowych, poprawnych przypadków (golden dataset), które agent musi przejść, zanim zyska większą autonomię.
Architektura wspierająca pełną autonomię
Celem agentów jest osiągnięcie wysokiego stopnia autonomii, ale bezpieczna architektura powinna być przewidywalna i łatwa w utrzymaniu. Zamiast jednego wielozadaniowego „boga”, lepiej zaprojektować zespół wyspecjalizowanych agentów.
W praktyce oznacza to stosowanie agenta orkiestratora, który koordynuje kilka wyspecjalizowanych agentów-„pracowników”, każdy z wąskimi uprawnieniami do określonych zadań. Orkiestrator śledzi i rejestruje przydzielanie zadań, dzięki czemu przepływy pracy są bezpieczniejsze, a błędy ograniczone do wąskich obszarów zamiast rozlewać się na cały system.
Fazowe wdrożenie autonomii
Wdrożenie pełnej autonomii powinno przebiegać wieloetapowo, podobnie jak proces onboardingu nowego pracownika — od obserwacji po awans na samodzielnego specjalistę.
Faza 1: Tryb cienia (okres szkoleniowy)
- Agent wykonuje zadania równolegle z człowiekiem.
- Wyniki agenta porównuje się z wynikami ludzkimi.
- Żadne odpowiedzi agenta nie są wykonywane automatycznie — celem jest budowanie statystycznego zaufania do jakości i wiarygodności.
Faza 2: Human-in-the-loop (okres próbny)
- Każda decyzja agenta wymaga zatwierdzenia przez człowieka, który również przekazuje informacje zwrotne.
- Ta faza jest kluczowa dla zadań o konsekwencjach prawnych, finansowych lub regulacyjnych — zapobiega kosztownym błędom.
- Wyjścia agenta muszą być przeglądane i zatwierdzane, dopóki nie wykazuje wysokiej niezawodności.
Faza 3: Pełna automatyzacja (etap „dojrzałego pracownika”)
- Agent zaczyna wykonywać zadania samodzielnie.
- To możliwe dopiero po wielokrotnym przekroczeniu wymaganych progów wydajności i niezawodności w fazie próbnej.
Odpowiedzialność i nadzór
Nawet gdy systemy osiągną pełną autonomię, firmy nie zwalniają się z odpowiedzialności za ich działania. Agent nie jest pracownikiem — jest narzędziem — dlatego odpowiedzialność powinna pozostawać przy menedżerze osoby, która wcześniej wykonywała daną czynność. To gwarantuje, że ktoś z wiedzą o kontekście i ryzykach może ocenić wynik i w razie potrzeby zainterweniować.
Niezbędne są ciągłe logi i okresowe przeglądy, aby upewnić się, że jakość efektów utrzymuje się na poziomie równym lub lepszym niż ten osiągany przez pracownika. Agentic AI ma potencjał znacząco zwiększyć produktywność przedsiębiorstw, lecz aby ten potencjał wykorzystać, wdrożenie musi przebiegać z taką samą starannością, jak zatrudnianie człowieka: z odpowiednimi zabezpieczeniami, etapowym szkoleniem i ścisłym nadzorem menedżerskim. Projektuj rozwiązania zakładając możliwość awarii — to najlepsza droga do sukcesu na dużą skalę.