Nowa Era Otwartości w Modelach Sztucznej Inteligencji
W świecie sztucznej inteligencji, pomimo przytłaczających postępów technologicznych, luka pomiędzy społecznością open source a prywatnymi gigantami technologicznymi staje się coraz bardziej widoczna. Zdecydowanie nie chodzi tylko o moc obliczeniową. Organizacja Ai2, dawniej znana jako Allen Institute for AI, podejmuje wyzwanie i stara się zmniejszyć tę przepaść, oferując całkowicie otwarte bazy danych, modele językowe i innowacyjne procesy post-treningowe, które przekształcają surowe modele w praktyczne rozwiązania gotowe do użytku.
—
Dlaczego modele językowe wymagają post-treningu?
Wbrew powszechnemu przekonaniu, tak zwane modele językowe bazowe (ang. foundation language models) nie są gotowe do bezpośredniego użytku zaraz po zakończeniu procesu trenowania. Choć etap wstępnego trenowania (pretraining) jest fundamentalny, to jednak daleki od wystarczalności. Dopiero proces post-treningu nadaje modelowi użyteczność, zamieniając go z surowego i wszechobecnego źródła informacji w narzędzie zdolne do precyzyjnych i odpowiedzialnych zastosowań.
Bez post-treningu modele mogłyby równie łatwo generować przepis na ciastka, jak i szerzyć niebezpieczne teorie spiskowe. Wyobraźmy sobie, jak istotne jest nadawanie modelom odpowiednich priorytetów, aby mogły służyć jako wsparcie dla terapeuty, analityka badawczego lub innych specjalistów. Niestety, firmy technologiczne zazwyczaj trzymają te procesy w tajemnicy, czyniąc z nich kluczowy element przewagi konkurencyjnej.
—
Problem z „otwartością” w projektach AI
Choć wiele projektów reklamuje się jako „otwarte”, rzeczywistość często wygląda inaczej. Przykładem są modele, takie jak Meta Llama, które rzeczywiście pozwalają na swobodne korzystanie z ich architektury, ale sposoby ich stworzenia oraz metody trenowania pozostają pod ścisłą kontrolą. Oznacza to, że choć dostępność jest szeroka, pełna transparentność — niekoniecznie.
Ai2 stawia sobie jednak za cel pełną otwartość, od ujawnienia źródeł danych, przez ich selekcję i oczyszczanie, aż po szczegółową dokumentację metod treningowych. Modele takie jak OLMo stanowią przykład tej filozofii. Dzięki temu powstaje przestrzeń dla deweloperów, którzy mogą rozwijać własne modele bez konieczności polegania na zamkniętych rozwiązaniach wielkich korporacji.
—
Tülu 3 – narzędzie do demokratyzacji post-treningu
Jednym z najnowszych osiągnięć Ai2 jest Tülu 3, zaawansowany system post-treningu, który stanowi ogromny krok naprzód w porównaniu z wcześniejszą wersją (Tülu 2). Dzięki miesiącom eksperymentów, analizie dostępnych metod i wielu iteracyjnym procesom treningowym, Tülu 3 osiąga wyniki porównywalne z najbardziej zaawansowanymi modelami otwartymi na rynku.
Tülu 3 oferuje kompleksowe podejście do personalizowania modeli językowych. Proces obejmuje wybór priorytetów, takich jak zwiększenie zdolności matematycznych czy kodowania, kosztem innych funkcji, jak np. wsparcie języków wielojęzycznych. Następnie model przechodzi przez szereg etapów, takich jak selekcja danych, uczenie ze wzmocnieniem, tuning preferencji czy dostosowanie parametrów meta-treningowych. Wynik? Model dostosowany do konkretnych potrzeb użytkownika i znacznie bardziej użyteczny w praktyce.
—
Wyzwalanie się spod dominacji gigantów technologicznych
Jednym z głównych celów Ai2 jest odebranie wielkim korporacjom monopolu na kluczowe narzędzia sztucznej inteligencji. Do tej pory, jeśli firma chciała stworzyć model dostosowany do swoich potrzeb, często musiała korzystać z infrastruktury firm takich jak OpenAI czy Meta, co wiązało się z kosztami oraz ryzykiem związanym z przekazywaniem wrażliwych danych. Alternatywą było wynajęcie zewnętrznego partnera, co również mogło być problematyczne ze względu na kwestie bezpieczeństwa i poufności.
Przykładem są firmy z branży medycznej, które muszą szczególnie dbać o bezpieczeństwo danych użytkowników. Dzięki narzędziom takim jak Tülu 3, mogą one budować i trenować własne modele we własnym zakresie, eliminując potrzebę angażowania zewnętrznych dostawców i minimalizując ryzyko wycieku danych.
—
Co dalej? Model OLMo i przyszłość otwartości
Ai2 już teraz korzysta z Tülu 3 w swoich projektach, co stanowi najlepszą rekomendację dla tego rozwiązania. Obecnie narzędzie to działa na bazie modelu Llama, ale organizacja planuje wprowadzenie wersji opartej na OLMo, co dodatkowo podniesie jakość wyników. OLMo, jako w pełni otwarty model od momentu powstania do końcowego etapu post-treningu, może stać się przełomem w demokratyzacji sztucznej inteligencji.
Dla ciekawych, jak wypadają modele przetwarzane za pomocą Tülu 3, Ai2 udostępnia demo na swojej stronie, gdzie można na własne oczy zobaczyć ich możliwości.
—
Podsumowanie
Dzięki takim inicjatywom jak Tülu 3, sztuczna inteligencja staje się bardziej dostępna i transparentna. Ai2 pokazuje, że możliwe jest tworzenie zaawansowanych technologii, które nie tylko konkurują jakością z produktami gigantów technologicznych, ale również stawiają na pełną otwartość i niezależność. W rezultacie otwierają się nowe możliwości dla deweloperów, naukowców i firm, które mogą teraz budować modele dostosowane do swoich potrzeb bez konieczności kompromisów w zakresie bezpieczeństwa czy kosztów.