Zespół Pathway twierdzi, że architektura transformerów, opracowana osiem lat temu, zbliża się do granic, których nie da się przeskoczyć jedynie większą mocą obliczeniową. Według firmy brakuje jej zdolności do rozumienia czasu i uczenia się ciągłego oraz jest wyjątkowo energochłonna. W opublikowanym we wrześniu artykule naukowym (arXiv:2509.26507) i podczas rozmowy na konferencji AWS re:Invent przedstawiono alternatywę — post‑transformerową architekturę wzorowaną na dynamice neuronalnej, nazwaną Dragon Hatchling, inspirowaną sposobem działania 20‑watowego ludzkiego mózgu.
Dlaczego transformery mają ograniczenia
Transformery zrewolucjonizowały przetwarzanie języka naturalnego dzięki mechanizmom uwagi (attention), które pozwalają modelom ocenić wagę poszczególnych słów w kontekście. Ta technologia stoi za wielkimi modelami językowymi, ale jej sposób działania rodzi istotne słabości. Proces uczenia opiera się na gradientowym spadku (gradient descent) i wymaga ogromnej liczby powtórzeń: aby nauczyć się czegoś, co człowiek łapie często po jednym doświadczeniu, transformer może potrzebować tysięcy lub milionów przykładów. Dodatkowo, by maksymalizować przepustowość, trening często usuwa informację o kolejności zdarzeń — wszystkie tokeny są przetwarzane równolegle, co pozbawia model „poczucia czasu”.
Ślepoty temporalne i problem pamięci
Brak pojęcia czasu — nazywany tu temporalną ślepotą — ogranicza zastosowania wymagające rozumowania sekwencji zdarzeń, jak prognozowanie rynków czy monitorowanie systemów. Ponadto tradycyjne modele transformerowe oddzielają pamięć od modelu i uczą się powoli, co hamuje zdolność do uczenia się ciągłego. Pathway podkreśla nieefektywność tego podejścia: podczas gdy biologiczne systemy mogą zapamiętać doświadczenie po jednym zdarzeniu (np. poparzenie się o gorącą płytę), transformery muszą „smakować mydło” tysiące razy, by zapisać podobną informację.
Architektura Dragon Hatchling — jak działa i dlaczego jest inna
Dragon Hatchling to propozycja architektury przypominającej mózg, w której pamięć jest zintegrowana z samym modelem i oparta na dynamice połączeń neuronalnych. Fundamentem tej koncepcji jest idea Hebba — „neurony, które zapalają się razem, łączą się razem” — oraz mechanizm tzw. rzadkiej aktywacji: według publikacji tylko około 5% połączeń neuronalnych aktywuje się w danym momencie, a pozostałe 95% pozostaje biernych. To odróżnia podejście Pathway od gęstego, masowego „odpalania” milionów parametrów stosowanego przez transformery.
W praktyce architektura utrzymuje strukturę stanu bez konieczności przeszukiwania całej sieci — modyfikowane są tylko istotne połączenia synaptyczne, co przekłada się na pamięć systemu. Dzięki temu model „nie zapomina”: przykładowo, po dodaniu arkusza kalkulacyjnego system będzie go pamiętał, bo informacja zostaje osadzona w połączeniach, a nie odrębnej zewnętrznej pamięci.
Technologia i zespół stojący za projektem
Pathway rozwija swoją platformę w oparciu o Live Data Framework — narzędzie ETL do przetwarzania strumieniowego, analiz w czasie rzeczywistym, pipeline’ów dla LLM i mechanizmów RAG. Framework ma ponad 100 000 gwiazdek na GitHubie, a według firmy korzystają z niego m.in. WhatsApp i NATO. Programiści piszą w Pythonie, ale kod jest tłumaczony na Rust i uruchamiany na przyrostowym silniku przetwarzania danych, który ma obsługiwać niskie opóźnienia niezależnie od intensywności napływu danych. Pathway porównuje swoje rozwiązanie do Apache Flink i Apache Spark — twierdząc, że oferuje podobne możliwości strumieniowego przetwarzania, przy czym ich platforma ma działać „jak Spark na sterydach”.
Zespół ma ugruntowane doświadczenie badawcze: CTO Jan Chorowski pracował z Geoffreyem Hintonem i był jednym z pionierów stosowania mechanizmu uwagi w rozpoznawaniu mowy. Kierownikiem badań jest Adrian Kosowski, specjalizujący się w systemach złożonych. CEO Zuzanna Stamirowska pochodzi z Instytutu Systemów Złożonych w Paryżu i pracowała z dynamiką cząstek w zadaniach prognostycznych. Do zespołu dołączył także Victor Szczerba, znany z pracy przy komercjalizacji rozwiązań in‑memory (m.in. SAP HANA).
Efektywność danych i oszczędność energii
Główne obietnice Pathway to oszczędność danych i energii. Zamiast stale uruchamiać ogromne, gęste macierze parametrów, system aktywuje jedynie niewielki zestaw połączeń i neuronów, które są potrzebne dla danej informacji. W efekcie model jest nie tylko „modelem pamięci”, ale też interpretuje koncepcje na podstawie połączeń, które tworzy. Pathway twierdzi, że ich podejście oferuje rozumowanie temporalne i porównywalną wydajność do transformerów przy znacząco niższym zużyciu energii.
Oczywiście istnieją kompromisy: transformery mają rozbudowany ekosystem narzędzi, infrastrukturę i ośmioletnie dziedzictwo rozwoju, co daje im praktyczną przewagę. Dragon Hatchling to inna architektura, wymagająca nowych narzędzi i integracji w środowiskach produkcyjnych.
Znaczenie dla przyszłości AI
Debata o następnym etapie rozwoju sztucznej inteligencji przestaje być jednowymiarowa. Transformery osiągnęły ogromne sukcesy w dopasowywaniu wzorców, ale ich koszty energetyczne i ograniczenia w uczeniu się temporalnym rodzą pytania o zrównoważony rozwój. Pathway proponuje model bliższy biologicznym mechanizmom uczenia — zintegrowaną pamięć, rzadką aktywację i zachowanie informacji o czasie — jako alternatywę, która może zmniejszyć zapotrzebowanie na moc obliczeniową i umożliwić uczenie bardziej zbliżone do ludzkiego.
Nie wiadomo jeszcze, jak szybko takie koncepcje przyjmą się w praktyce. Jednak rosnące zainteresowanie badaczy innymi niż transformer podejściami wskazuje, że pytanie o przyszłość AI przestało być retoryczne: czy kontynuować skalowanie istniejących rozwiązań, czy też zainwestować w nowe architektury inspirowane mózgiem? Pathway stawia na to drugie — i już buduje „gniazdo” dla swoich „smoczych piskląt”, by przetestować, czy to właśnie one mogą poprowadzić rozwój AI poza erę transformerów.

