Nadchodzi nowa era kodowania – systemy agentowe sztucznej inteligencji z coraz większą autonomią
W ubiegły piątek firma OpenAI zaprezentowała nowy system wspomagający kodowanie o nazwie Codex. Ten zaawansowany model jest w stanie zamieniać komendy w języku naturalnym w funkcjonujący kod, podejmując się złożonych zadań programistycznych bez szczegółowej ingerencji użytkownika. Codex reprezentuje następny etap w rozwoju narzędzi AI przeznaczonych dla programistów – etap, w którym sztuczna inteligencja staje się nie tylko asystentem, lecz autonomicznym wykonawcą projektów programistycznych.
Dotychczasowe narzędzia, takie jak popularny GitHub Copilot czy nowsze propozycje jak Cursor czy Windsurf, pełniły rolę „inteligentnego autouzupełniania”. Były obecne bezpośrednio w środowisku programistycznym (IDE), wspierając dewelopera, ale nie zastępując go w całości. Użytkownik nadal musiał analizować, interpretować i akceptować generowany kod, co oznaczało nieustanną obecność człowieka w pętli tworzenia oprogramowania.
Nowoczesne rozwiązania agentowe – takie jak Devin, SWE-Agent, OpenHands i wspomniany OpenAI Codex – podchodzą do tematu inaczej. Ich celem jest całkowite odsunięcie dewelopera od pracy z kodem. Wystarczy przypisać zadanie, na przykład przez systemy zarządzania projektami typu Asana czy komunikatory jak Slack, a sztuczny programista podejmuje się realizacji, informując jedynie o zakończeniu działań. Wyobraź sobie sytuację, w której wystarczy zgłosić błąd w systemie, a AI samodzielnie go identyfikuje, rozwiązuje i testuje poprawkę – bez interwencji człowieka.
To mocno futurystyczne podejście, ale w ocenie wielu ekspertów stanowi naturalne przedłużenie obecnych trendów automatyzacyjnych w branży IT. Jak tłumaczy Kilian Lieret, badacz z Princeton i współtwórca SWE-Agent, „na początku kod pisano znak po znaku, ręcznie. Potem pojawił się GitHub Copilot i przyniósł autouzupełnianie – to był krok drugi. Teraz staramy się postawić kolejny krok: przenieść kontrolę na poziom zarządzania projektem i dać AI większą autonomię”.
Choć wizja ta jest ekscytująca, rzeczywistość jest bardziej skomplikowana. Produkt Devin, który zadebiutował publicznie pod koniec 2024 roku, został skrytykowany przez licznych komentatorów technologicznych, w tym na YouTube. Nawet bardziej zrównoważone opinie klientów, jak te z platformy Answer.AI, wskazywały, że obecność błędów wymaga tyle samo nadzoru, co ręczna realizacja zadań – co odbiega od obietnicy pełnej autonomii. Mimo to, inwestorzy pozostają optymistyczni: spółka macierzysta Cognition AI otrzymała w marcu 2025 roku setki milionów dolarów finansowania przy wycenie na poziomie 4 miliardów dolarów.
Zwłaszcza zwolennicy AI podkreślają jednak, że na tym etapie rozwoju technologia agentowa powinna nadal pozostawać pod ścisłą kontrolą człowieka. Robert Brennan, CEO firmy All Hands AI odpowiedzialnej za platformę OpenHands, wyraźnie zaznacza: „Na chwilę obecną, i zapewne jeszcze przez jakiś czas, człowiek musi przeprowadzać kontrolę kodu przed wdrożeniem. Widziałem wiele przypadków, gdzie brak takiej kontroli prowadził do chaosu.”
Niepokój budzą także tzw. „halucynacje” modeli, czyli momenty, kiedy agent zaczyna generować błędne lub zmyślone informacje. Brennan opisuje przypadek, w którym agent OpenHands odpowiedział na zapytanie dotyczące nowego API, którego nie znał, kompletnie zmyślając jego funkcjonalność. Firma pracuje nad mechanizmami wychwytującymi tego typu błędy, ale póki co nie ma na to idealnego rozwiązania.
Pewną miarą skuteczności agentowego podejścia w kodowaniu są wyniki w rankingach SWE-Bench, które mierzą zdolność modeli AI do rozwiązywania prawdziwych, nierozwiązanych problemów z publicznych repozytoriów GitHub. OpenHands zajmuje obecnie pierwsze miejsce wśród urzędowo zatwierdzonych wyników, z 65,8% poprawnie rozwiązanych przypadków. OpenAI deklaruje, że wersja ich modelu Codex-1 osiąga wynik 72,1%, choć wynik ten nie został jeszcze niezależnie zweryfikowany i zawiera pewne zastrzeżenia metodologiczne.
Problem wciąż jednak pozostaje: nawet najlepsze systemy agentowe nie są w stanie rozwiązać wszystkich problemów. Jeśli 25-35% błędów AI nie potrafi skutecznie naprawić, nadal konieczna będzie praca doświadczonych programistów, szczególnie przy bardziej złożonych projektach wymagających wielu etapów implementacji.
Wierzy się jednak, że z czasem, dzięki nieustannym postępom w rozwoju bazowych modeli AI, technologia ta dojrzeje do poziomu spójnej i wiarygodnej wspomaganej automatyzacji rozwoju oprogramowania. Kluczowe będzie jednak skuteczne radzenie sobie z halucynacjami oraz zwiększenie ogólnej niezawodności i przewidywalności działania systemów agentowych.
„Można odnieść wrażenie, że stoimy przed pewnego rodzaju barierą dźwiękową,” mówi Brennan. „Pytanie brzmi, na ile można zaufać tym agentom, by rzeczywiście odciążyły programistów w ich pracy, zamiast dodawać im kolejne obowiązki.”