Dziesięć lat temu prace naukowe z zakresu uczenia głębokiego nie budziły jeszcze powszechnego zaufania. Ich odnośniki często sięgały zaledwie roku wstecz, co utrudniało postrzeganie ich jako wiarygodnych źródeł wiedzy. Dziś jesteśmy świadkami przełomu – obchodzimy dziesiątą rocznicę publikacji dwóch artykułów naukowych uznawanych za fundament generatywnej sztucznej inteligencji w dziedzinie obrazów i tekstu. W ostatniej dekadzie nauczyliśmy się dwóch fundamentalnych rzeczy: jak skuteczne są osadzenia (embeddings) w reprezentowaniu złożonych informacji semantycznych oraz jak ogromne znaczenie ma pretrenowanie modeli na dużych zbiorach danych.
Po tegorocznej konferencji NeurIPS – jednym z najbardziej prestiżowych wydarzeń poświęconych sztucznej inteligencji i uczeniu maszynowemu – wielu ekspertów, w tym autor niniejszego opracowania, poświęciło dziesiątki godzin na analizę prelekcji, warsztatów i sesji naukowych. Oto najważniejsze wnioski z punktu widzenia zastosowań AI w biznesie i przemyśle.
Era klasycznych modeli uczenia maszynowego powoli ustępuje miejsca modelom zwanego „światowymi” (World Models). Podczas gdy tacy giganci jak OpenAI wyczerpali już możliwości dalszego przełamywania barier za pomocą trenowania modeli wyłącznie na danych tekstowych czy graficznych, obecnie obserwujemy ekspansję uczenia na nowe typy danych – takie jak tabele, arkusze kalkulacyjne czy dane relacyjne. Oznacza to zmianę paradygmatu: zamiast budować modele od podstaw dla konkretnych zastosowań, tworzymy modele ogólnego przeznaczenia, które następnie dostrajamy lub kontekstualizujemy pod kątem konkretnych zadań. Ten kierunek jest nowym standardem dla przemysłu.
Wysoko oceniane sekcje konferencyjne dotyczyły również automatycznego pisania kodu oraz rozwiązywania zadań matematycznych z pomocą dużych modeli językowych (LLM). Co ciekawe, równie dużą uwagę poświęcono próbom udoskonalenia zdolności modeli AI do dowodzenia twierdzeń matematycznych – zadania, które od ponad stu lat fascynuje zarówno matematyków, jak i informatyków, od Hilberta przez Gödla aż po Turinga. Choć może się wydawać, że dowodzenie twierdzeń to akademicka nisza, to w rzeczywistości niesie to za sobą ogromny potencjał. Rozwijając zdolności LLM do logicznego rozumowania, poprawiamy ich skuteczność także w zadaniach praktycznych: planowaniu, analizie, generowaniu rozwiązań.
Z punktu widzenia infrastruktury sprzętowej, najbardziej wizjonerskie wystąpienie konferencji dotyczyło perspektyw budowy układów scalonych umożliwiających wykonywanie jednocześnie nawet biliona operacji parametrowych. Tradycyjne modele wymagają kosztownych operacji na liczbach zmiennoprzecinkowych – co przekłada się na większy koszt i zapotrzebowanie na energię. Alternatywą są projekty takie jak BitNet, gdzie każdy parametr modelu jest reprezentowany na zaledwie 1,58 bitach dzięki użyciu tabel wyszukiwania i prostych operacji logicznych. Choć świat wciąż czeka na w pełni funkcjonalne transformatory jednobitowe, wiele badań oraz wyniki konkursowe z tego roku pokazują, że mniejsze modele mogą być równie skuteczne – o ile są dobrze dostrojone. Rozwiązania takie jak LLama i Mistral udowadniają, że dostępne i bardziej „przyjazne licencyjnie” modele mogą być konkurencyjne względem modeli o rozmiarach przemysłowych.
Ciekawym trendem, który wyłania się obecnie na tle rosnącej efektywności pretrenowania, jest wzmocnienie roli agentów AI – autonomicznych, inteligentnych jednostek zdolnych do współpracy, planowania i samodzielnego rozwiązywania złożonych problemów. Jak powiedział Ilya Sutskever – współzałożyciel OpenAI – wszystkie dane dostępne w internecie zostały już „zużyte”, więc czas szukać dróg rozwoju poprzez zwiększenie mocy obliczeniowej na etapie wnioskowania (inference). Hybrydowe podejście z większym wykorzystaniem LSTM (np. w postaci xLSTM) może tu okazać się przełomowe – łącząc szybkość z efektywnością i niskim zużyciem energii.
Rok 2025 może zostać zapamiętany jako początek ery industrializacji sztucznej inteligencji. Wchodzimy w nową fazę, podobną do tej, w której rozwijały się niegdyś technologie elektryczności czy mikroukładów scalonych. Modele świata – podbudowane solidnym pretrenowaniem, ukierunkowanym dostrajaniem i współdziałającymi agentami – definiują teraz jakość oraz kierunek rozwoju AI. Koszt jednojadrowego przetwarzania danych nieustannie spada (obecnie około 30 000 USD za przetworzenie biliona tokenów tekstu), co obniża barierę wejścia dla przedsiębiorstw. Przyszłość należy do systemów opartych na współpracujących agentach, które nie tylko rozumieją polecenia, ale wykazują się coraz bardziej ludzkim rozumowaniem. To jednak niesie też ryzyko utraty pełnej kontroli nad procesami podejmowania decyzji przez AI – dlatego musimy równolegle rozwijać instrumenty do ich monitorowania i kontroli.
Sztuczna inteligencja właśnie przechodzi ze strefy badań akademickich do pełnoskalowej adaptacji przemysłowej. Warto być na bieżąco, by nie zostać z tyłu – bo w tym tempie pozostanie w tyle to krok w stronę nieistnienia w cyfrowej rzeczywistości jutra.