Sztuczna inteligencja kontra Super Mario Bros.: Test wyzwań dla AI
Czy Pokémon było trudnym testem dla sztucznej inteligencji? Okazuje się, że Super Mario Bros. stanowi jeszcze większe wyzwanie. Grupa badawcza z Uniwersytetu Kalifornijskiego w San Diego postanowiła sprawdzić, jak współczesne modele AI radzą sobie z legendarną grą platformową. Wyniki eksperymentu zaskoczyły nawet samych naukowców.
Test Super Mario Bros. dla sztucznej inteligencji
Laboratorium Hao AI Lab przeprowadziło badania, w których modele AI dostały zadanie przejścia poziomów w Super Mario Bros. Nie była to jednak klasyczna wersja gry z 1985 roku – działała ona w emulatorze i została zintegrowana z autorskim frameworkiem GamingAgent. System ten umożliwiał modelom AI kontrolowanie Mario za pomocą generowanych instrukcji.
Najlepiej w eksperymencie poradził sobie model Claude 3.7, tuż za nim uplasował się Claude 3.5. Gorzej poszło innym zaawansowanym modelom, takim jak Gemini 1.5 Pro od Google oraz GPT-4o od OpenAI, które miały wyraźne problemy z rozgrywką.
Jak działał GamingAgent?
GamingAgent został opracowany przez zespół badawczy, aby pomóc AI zrozumieć świat gry. Dostarczał modelom sztucznej inteligencji podstawowe instrukcje, np. „Jeśli przeszkoda lub przeciwnik jest w pobliżu, przesuń się w lewo lub skocz, aby uniknąć zagrożenia”. Dodatkowo AI otrzymywało zrzuty ekranu z gry, a następnie generowało polecenia sterowania w formie kodu Python.
Mimo tych usprawnień, rozgrywka wymagała od modeli czegoś więcej niż mechanicznego wykonywania poleceń. AI musiało nauczyć się planowania skomplikowanych manewrów i opracowywania strategii, które umożliwiały mu przejście poziomów.
Kiedy złożone modele myślenia zawodzą
Zadziwiające jest to, że bardziej skomplikowane modele AI, które charakteryzują się umiejętnością logicznego rozumowania, wypadły gorzej niż prostsze systemy. Na przykład model OpenAI o1, który rozwiązuje problemy krok po kroku, okazał się mniej skuteczny niż modele wykonujące działania na zasadzie bezpośrednich reakcji.
Głównym problemem okazał się czas potrzebny na podjęcie decyzji. Modele rozumujące dokładnie analizują sytuację przed wykonaniem ruchu, co w przypadku gier w czasie rzeczywistym, takich jak Super Mario Bros., skutkuje opóźnieniami. W grze, gdzie liczy się ułamek sekundy, każda zwłoka to ryzyko upadku w przepaść lub kolizji z przeciwnikiem.
Gry jako test dla sztucznej inteligencji – czy to ma sens?
Wykorzystanie gier do testowania sztucznej inteligencji nie jest nowym pomysłem – tego rodzaju benchmarki stosuje się od dekad. Jednak niektórzy eksperci kwestionują zasadność takiego podejścia. Gry, choć często skomplikowane, mają jasno określone reguły i zapewniają teoretycznie nieskończoną ilość dostępnych danych, co może nie odzwierciedlać wyzwań rzeczywistego świata.
Część badaczy uważa, że tego typu testy mogą prowadzić do tak zwanego „kryzysu ewaluacyjnego” w AI. Andrej Karpathy, jeden z kluczowych naukowców OpenAI, przyznał, że obecnie brak jednolitych i wiarygodnych metryk oceny sztucznej inteligencji.
„Nie wiem, jakie metryki AI powinniśmy teraz analizować” – napisał w jednym ze swoich postów. „Szczerze mówiąc, nie mam pewności, jak dobre są te modele w rzeczywistości.”
Czy AI kiedykolwiek pokona Super Mario Bros.?
Mimo że sztuczna inteligencja potrafi już radzić sobie z wieloma złożonymi zadaniami, wciąż nie jest mistrzem w klasycznych platformówkach. Super Mario Bros. wymaga czegoś więcej niż precyzji przetwarzania – liczy się intuicja, szybka reakcja i umiejętność dostosowywania się do dynamicznych sytuacji.
Jedno jest pewne – dopóki AI nie zacznie pokonywać gier tak dobrze jak ludzie, przynajmniej możemy cieszyć się oglądaniem jej prób.