Inception, nowa firma z Palo Alto założona przez profesora informatyki ze Stanford, Stefano Ermona, wprowadza innowacyjne podejście do modeli sztucznej inteligencji. Według jej twórców opracowany został przełomowy model językowy bazujący na technologii dyfuzji. Rozwiązanie to, nazwane przez Inception jako DLM (Diffusion-based Large Language Model), oferuje unikalne możliwości i stanowi nową jakość w generowaniu treści.
Obecnie dominujące modele generatywnej sztucznej inteligencji dzielą się na dwa główne typy: duże modele językowe (LLM) oraz modele dyfuzyjne. LLM-y, oparte na architekturze transformatorów, służą głównie do generowania tekstu. Natomiast modele dyfuzyjne, wykorzystywane przez systemy AI do tworzenia obrazów, wideo i dźwięku, stanowią podstawę narzędzi takich jak Midjourney oraz OpenAI Sora. Tradycyjnie te dwie technologie były używane do różnych celów, lecz Inception po raz pierwszy łączy ich możliwości w jeden wydajniejszy model.
Model opracowany przez Inception zapewnia wszystkie funkcje klasycznych LLM-ów, takie jak generowanie kodu czy odpowiadanie na pytania, ale oferuje przy tym znacznie większą szybkość działania oraz niższe zapotrzebowanie na moc obliczeniową. Dzięki temu możliwe jest uzyskanie lepszej efektywności energetycznej, co staje się kluczowe przy rosnącym zapotrzebowaniu na modele AI.
Ermon już od lat badał możliwość zastosowania technologii dyfuzji do przetwarzania tekstu. W laboratorium na Uniwersytecie Stanford analizował, jak tradycyjne modele językowe są ograniczane przez swoje sekwencyjne podejście – nowe słowa są generowane jedno po drugim, co ogranicza ich szybkość. W przeciwieństwie do tego, modele dyfuzyjne zaczynają od zgrubnego szkicu danych (na przykład obrazu), a następnie jednocześnie dopracowują cały wynik. Ermon postawił tezę, że podobny sposób działania można zastosować przy przetwarzaniu tekstu, co pozwoli na generowanie i modyfikowanie wielkich bloków informacji w sposób równoległy.
Po latach badań i eksperymentów, Ermon wraz ze swoim studentem dokonali przełomowego odkrycia, które zostało opisane w pracy naukowej opublikowanej w ubiegłym roku. Widząc potencjał tego rozwiązania, postanowił założyć firmę Inception latem zeszłego roku. Do współpracy zaprosił dwóch byłych studentów – profesora UCLA Adityę Grovera oraz profesora Kornela Volodymyra Kuleshova, którzy obecnie współprowadzą firmę.
Choć Ermon nie ujawnia szczegółów dotyczących finansowania Inception, wiadomo, że firma zdobyła wsparcie inwestycyjne od funduszu Mayfield. Już teraz nawiązała relacje z kilkoma dużymi klientami, w tym korporacjami z listy Fortune 100, oferując im rozwiązania, które znacząco skracają czas reakcji i zwiększają efektywność przetwarzania danych przez AI.
„Nasze modele potrafią znacznie efektywniej wykorzystywać moc obliczeniową procesorów graficznych, co jest ogromnym przełomem. To zmieni sposób, w jaki ludzie będą budować modele językowe” – powiedział Ermon.
Inception nie tylko oferuje API, ale również umożliwia wdrażanie swojego modelu na serwerach lokalnych i urządzeniach brzegowych. Firma wspiera także dostosowywanie swoich modeli do konkretnych zastosowań oraz oferuje gotowe rozwiązania dla różnych branż. Według Inception, ich DLM-y działają nawet 10 razy szybciej niż tradycyjne modele LLM, przy jednoczesnym zmniejszeniu kosztów operacyjnych również dziesięciokrotnie.
Firma twierdzi, że ich „mały” model kodowania jest tak skuteczny jak GPT-4o mini od OpenAI, lecz przebija go dziesięciokrotną prędkością działania. Z kolei „mini” wariant modelu Inception radzi sobie lepiej niż mniejsze otwartoźródłowe modele, np. Llama 3.1 8B, osiągając szybkość przetwarzania przekraczającą 1000 tokenów na sekundę.
Termin „tokeny” odnosi się do najmniejszych jednostek surowych danych przetwarzanych przez modele językowe. Osiąganie 1000 tokenów na sekundę to wynik imponujący i, jeśli deklaracje Inception się potwierdzą, może oznaczać przełom w dziedzinie sztucznej inteligencji.