Większość standardowych testów dla sztucznej inteligencji (AI) nie dostarcza nam zbyt wielu użytecznych informacji. Zazwyczaj są to pytania, które mogą zostać rozwiązane za pomocą prostego zapamiętywania, lub dotyczą tematów, które są mało istotne dla większości użytkowników. W związku z tym coraz więcej entuzjastów AI zwraca się ku grom komputerowym jako narzędziom do testowania umiejętności rozwiązywania problemów przez sztuczną inteligencję.
Gry jako narzędzie testowania AI
Paul Calcraft, niezależny deweloper AI, stworzył aplikację, w której dwa modele AI grają w grę przypominającą Pictionary. Jeden z modeli rysuje, a drugi próbuje odgadnąć, co przedstawia rysunek. „Pomyślałem, że to brzmi świetnie, zabawnie i potencjalnie interesująco pod względem zdolności modeli AI” – powiedział Calcraft w wywiadzie. „Spędziłem na tym pochmurną sobotę i udało się to zrealizować.”
Inspiracją dla Calcrafta był podobny projekt brytyjskiego programisty Simona Willisona, który zlecił modelom AI stworzenie wektorowego rysunku przedstawiającego pelikana jadącego na rowerze. Zarówno Willison, jak i Calcraft uważali, że takie wyzwanie zmusza modele AI do „myślenia” poza danymi, na których były trenowane.
Bez możliwości „oszukania”
Podstawowym celem Calcrafta było stworzenie benchmarku, którego nie można „oszukać” prostym zapamiętywaniem odpowiedzi. „Chodzi o stworzenie testu, który nie zostanie pokonany dzięki zapamiętaniu konkretnych odpowiedzi lub prostych wzorców, które model widział podczas treningu” – wyjaśnił. W ten sposób, gra taka jak Pictionary pozwala sprawdzić, czy AI rozumie pojęcia takie jak kształty, kolory czy przyimki (np. „na” vs. „w”).
Minecraft jest kolejnym przykładem „nieoszukiwalnego” środowiska, jak uważa 16-letni Adonis Singh, twórca narzędzia o nazwie mc-bench. To narzędzie pozwala modelowi kontrolować postać w grze Minecraft i ocenia jego zdolności do projektowania struktur, podobnie jak projekt Microsoftu Project Malmo. Singh twierdzi, że Minecraft testuje modele AI pod kątem kreatywności i daje im większą swobodę działania, w odróżnieniu od innych, bardziej ograniczonych benchmarków.
Historia wykorzystania gier w AI
Wykorzystywanie gier do testowania sztucznej inteligencji nie jest nowym pomysłem. Już w 1949 roku matematyk Claude Shannon argumentował, że gry takie jak szachy stanowią godne wyzwanie dla „inteligentnego” oprogramowania. W bardziej współczesnych czasach firma DeepMind (część Alphabet, właściciela Google) stworzyła model, który potrafi grać w Pong i Breakout. OpenAI wyszkoliło AI, które potrafi rywalizować w meczach Dota 2, a Meta zaprojektowała algorytm, który może mierzyć się z profesjonalnymi graczami w pokera Texas hold’em.
Jednak to, co jest dziś nowe, to wykorzystanie wielkich modeli językowych (LLM), które potrafią analizować zarówno teksty, jak i obrazy, do gier w celu badania ich zdolności logicznych. Modele takie jak Gemini, Claude czy GPT-4o mają różne „charaktery” i ich zachowanie w poszczególnych sytuacjach może się znacznie różnić.
Gry vs. klasyczne testy
Matthew Guzdial, badacz AI i profesor z Uniwersytetu Alberty, uważa, że gry dostarczają intuicyjnego i wizualnego sposobu porównywania wydajności różnych modeli. „Każdy benchmark daje nam uproszczony obraz rzeczywistości, skoncentrowany na określonych typach problemów, takich jak rozumowanie czy komunikacja” – mówi Guzdial. Gry są kolejnym narzędziem do podejmowania decyzji przez AI, dlatego są używane jak każda inna metoda.
Gry takie jak Pictionary przypominają generatywne sieci przeciwstawne (GAN), gdzie model tworzący wysyła obrazy do modelu dyskryminującego, który następnie je ocenia. Calcraft wierzy, że Pictionary może pokazać zdolność modelu LLM do rozumienia pojęć takich jak kształty, kolory i relacje przestrzenne.
Minecraft jako benchmark
Adonis Singh uważa, że Minecraft jest doskonałym narzędziem do sprawdzania zdolności rozumowania modeli AI. „Z modelem, który testowałem, wyniki doskonale zgadzają się z tym, jak bardzo ufam temu modelowi w zadaniach wymagających rozumowania” – mówi Singh.
Nie wszyscy jednak podzielają ten entuzjazm. Mike Cook, badacz z Queen Mary University, specjalizujący się w AI, nie uważa Minecrafta za szczególnie wyjątkowy test dla AI. „Część fascynacji Minecraftem bierze się od osób spoza branży gier, które mogą myśleć, że ponieważ gra wygląda jak ‘prawdziwy świat’, ma bliższy związek z rzeczywistym rozumowaniem lub działaniem” – wyjaśnia Cook. „Z perspektywy rozwiązywania problemów, Minecraft nie różni się zbytnio od gier takich jak Fortnite, Stardew Valley czy World of Warcraft.”
Cook dodaje, że choć Minecraft oferuje pewne interesujące wyzwania, takie jak słabe sygnały nagród i proceduralnie generowany świat, nie jest on bardziej reprezentatywny dla rzeczywistego świata niż jakakolwiek inna gra komputerowa.
Podsumowanie
Chociaż gry takie jak Pictionary czy Minecraft mogą nie być idealnym narzędziem do testowania zdolności rozumowania AI, to na pewno dostarczają ciekawych i interaktywnych benchmarków, które różnią się od standardowych testów opartych na tekście. Są to małe kroki w dążeniu do lepszego zrozumienia, jak AI radzi sobie z problemami nieopartymi jedynie na danych, które widziała podczas treningu.