Przez lata większość dużych modeli językowych (LLM) opierała się na autoregresji – podejściu, w którym każde słowo generowane jest sekwencyjnie, zależnie od poprzednich tokenów. Ta metoda pozwala na zachowanie kontekstu, ale wiąże się z wysokimi kosztami obliczeniowymi i problemami z opóźnieniami. Teraz na horyzoncie pojawia się nowa technologia, która może zrewolucjonizować sposób generowania tekstu – modele rozproszenia (diffusion LLMs).
Najnowsze rozwiązanie opracowane przez Inception Labs, Mercury, wykorzystuje technologię rozproszenia, która do tej pory była stosowana głównie w generowaniu obrazów, jak w przypadku takich modeli jak DALL-E, Stable Diffusion czy Midjourney. W przeciwieństwie do autoregresyjnego przetwarzania tokenów jeden po drugim, modele rozproszeniowe działają w sposób równoległy, co pozwala na szybszą i mniej zasobożerną generację tekstu.
Autoregresja kontra rozproszenie
Tradycyjne modele autoregresyjne działają sekwencyjnie – każde kolejne słowo jest uzależnione od poprzednich. Taka metoda gwarantuje wysoką jakość i spójność tekstu, ale cierpi na dużą złożoność obliczeniową, co prowadzi do kosztownych operacji i opóźnień. Z kolei modele rozproszeniowe przetwarzają cały tekst równocześnie, wprowadzając początkowo szum do danych, a następnie stopniowo go redukując, aż do uzyskania końcowego wyniku.
W przypadku generowania obrazów technika ta pozwala modelowi nauczyć się, jak stopniowo przekształcać chaotyczne dane w bardziej uporządkowane i realistyczne wzory. Teraz podobne podejście zaczyna być stosowane w generowaniu tekstu, co może oznaczać przełom w szybkości i efektywności modeli językowych.
Przewaga Mercury w generowaniu tekstu
Mercury, nowatorski model opracowany przez Inception Labs, jest nawet pięciokrotnie szybszy niż tradycyjne LLM i do dziesięciu razy szybszy niż inne zoptymalizowane modele. Wykorzystanie tej technologii oznacza, że Mercury jest w stanie osiągnąć prędkość ponad 1000 tokenów na sekundę na procesorach NVIDIA H100 – wynik wcześniej osiągalny jedynie dla specjalistycznych układów scalonych.
Obecnie Mercury dostępny jest w wersji demonstracyjnej jako Mercury Coder, zaprojektowanej specjalnie do generacji kodu. Dzięki wykorzystaniu architektury rozproszenia model znacząco przyspiesza pracę programistów, oferując niemal natychmiastowe odpowiedzi i rozwiązania kodowe.
Porównania w czasie rzeczywistym z innymi modelami, w tym GPT-4o oraz Claude 3.5, wykazały, że Mercury Coder nie tylko dorównuje im jakością, ale również jest znacznie szybszy. Co więcej, mniejsze modele Mercury przewyższają otwarte rozwiązania, takie jak Llama 3.1 8B, oferując lepszą wydajność przy niższym koszcie.
Możliwe zastosowania i wpływ na przyszłość AI
Mercury nie tylko przyspiesza generowanie tekstu, ale również obniża koszty operacyjne modeli językowych, ponieważ do działania wykorzystuje standardowe procesory graficzne, zamiast wymagać wyspecjalizowanego sprzętu. Może to oznaczać przełom dla firm stawiających na rozwój AI, które dotąd musiały inwestować ogromne środki w kosztowną infrastrukturę.
Zastosowania modeli rozproszeniowych wykraczają jednak daleko poza samą generację kodu. Można je wykorzystać w systemach automatyzacji przedsiębiorstw, chatbotach i modelach konwersacyjnych, a także w sytuacjach wymagających niskiej latencji, takich jak aplikacje mobilne i rozwiązania IoT. Dzięki silnym zdolnościom rozumowania, modele te mogą także szybko korygować błędy i ograniczać generowanie błędnych informacji, redukując zjawisko tzw. „halucynacji” AI.
Czy modele rozproszeniowe staną się standardem dla przyszłych rozwiązań AI? Inception Labs przekonuje, że tak, i oferuje już dostęp do Mercury w formie demonstracyjnej oraz w wersji produkcyjnej dla klientów korporacyjnych. Nowa technologia zapowiada znaczącą ewolucję w sposobie, w jaki będziemy korzystać z modeli językowych, otwierając drzwi do jeszcze szybszego i efektywniejszego przetwarzania tekstu.