20 listopada 2025 — Frederic Lardinois
Allen Institute for AI (Ai2) zaprezentował Olmo 3, nową rodzinę otwartoźródłowych modeli językowych (LLM). Instytut określa ją jako „najlepszy amerykański model open source w tej skali” oraz „najlepszy 7B zachodni model typu instruct i thinking na rynku”. Ogłoszenie podkreśla nie tylko wyniki benchmarków, lecz także podejście do pełnej przejrzystości procesu trenowania — od danych po skrypty szkoleniowe — co wyróżnia Ai2 obok inicjatyw takich jak Stanford Marin czy szwajcarskie Apertus.
Co to jest Olmo 3 i jakie są jego warianty
Olmo 3 to rodzina modeli udostępniona na licencji Apache 2.0. Zawiera trzy główne warianty: Olmo 3-Base (w wersjach 7B i 32B), Olmo 3-Think (7B i 32B) oraz Olmo 3-Instruct (7B). W zapisie „7B” i „32B” litera B oznacza miliardy parametrów modelu — odpowiednio 7 i 32 miliardy — co daje wyobrażenie o skali sieci neuronowej. Wariant „Base” stanowi podstawę pozostałych dwóch wariantów; „Think” został zaprojektowany do rozumowania krok po kroku i generowania śladów myślenia (intermediate thinking traces), a „Instruct” skupia się po post-treningu na ścisłym wykonywaniu poleceń, dialogu wielokrotnego i użyciu narzędzi.
Wydajność i benchmarki
Ai2 twierdzi, że Olmo 3 osiąga lepsze rezultaty niż wiele innych otwartoźródłowych modeli i modeli o otwartych wagach w standardowych benchmarkach. W szczególności model Olmo 3-Think 32B wypada porównywalnie do Qwen 3-32B-Thinking, mimo że był trenowany przy użyciu zaledwie jednej szóstej liczby tokenów wykorzystanych przez konkurencję. To istotne, ponieważ liczba tokenów użytych w treningu wpływa na koszty i czas trenowania — osiągnięcie zbliżonej jakości przy mniejszej liczbie danych może oznaczać bardziej wydajny proces rozwoju modelu.
Dla wariantu Instruct (7B) zespół skupiał się na dostrojeniu po głównym treningu tak, aby model lepiej wykonywał polecenia, obsługiwał wielokrotne rundy dialogu i korzystanie z narzędzi. Ai2 ocenia, że ten wariant przewyższa takie modele jak Qwen 2.5, Google Gemma 3 i Llama 3, a w niektórych testach zbliża się do Qwen 3.
Architektura Olmo 3 nie odbiega zasadniczo od poprzednika (Olmo 2), ale zespół wprowadził istotne modyfikacje: podczas pre-treningu i mid-treningu powiększono okno kontekstu do 8192 tokenów, a w trzech na cztery warstwy zastosowano wzorzec „sliding window attention” (uwaga w przesuwanym oknie). Te zmiany pomagają modelowi przetwarzać dłuższe fragmenty tekstu i efektywniej wykorzystywać pamięć podczas generowania odpowiedzi.
Otwartość: „model flows” i dostępność materiałów
Jednym z istotnych elementów publikacji Ai2 jest pełna otwartość tzw. „model flows” — czyli szczegółowych etapów trenowania modeli i używanych przetrenowań. Jak wyjaśnia Hanna Hajishirzi, dyrektor ds. AI w Ai2, udostępnienie tych etapów ma na celu pokazanie deweloperom, jak zbudować zaawansowane modele oraz umożliwienie im tworzenia własnych wariantów i dostrajania na bazie udostępnionych checkpointów.
Pradeep Dasigi, starszy naukowiec w Ai2, podkreśla, że udostępnione „recipes” danych i skrypty pozwalają na łatwiejszą specjalizację modeli do konkretnych dziedzin, np. biomedycyny. Zespół przekazuje raporty opisujące, które podejścia zadziałały, a które nie, tak by inni mogli powtarzalnie tworzyć lub syntetyzować zestawy danych i kontynuować dostrajanie od wybranych checkpointów.
Dane treningowe i narzędzia
Ai2 udostępnia również zbiory pre-treningowe Dolma 3 oraz zestaw danych do post-treningu Dolci, wraz z narzędziami ewaluacyjnymi i kodem narzędzi reinforcement learning użytym przy trenowaniu wariantów modeli. Zbiór Dolma 3 składa się głównie z danych webowych (m.in. Common Crawl), kodu z GitHub, obszernego zestawu artykułów naukowych, treści z Wikipedii oraz stron związanych z matematyką.
Aby poprawić jakość danych, zespół przeprowadził deduplikację oraz użył OCR dla wielu artykułów naukowych, a także opracował narzędzia do oceny, które fragmenty danych rzeczywiście poprawiają wydajność modelu. Jak tłumaczy Hajishirzi, świadome badanie „praw skalowania” i staranna metodologia eksperymentów pozwoliły wykrywać sygnały poprawy przy relatywnie mniejszych i tańszych jednostkach eksperymentalnych, co ułatwiło selekcję przydatnych fragmentów np. z PDF-ów.
Dostępność i dokumentacja
Ai2 udostępniło pełną dokumentację techniczną opisującą procedury treningowe oraz sposób budowy zbiorów treningowych. Wszystkie modele i zbiory danych są publicznie dostępne na platformie Hugging Face, co ułatwia deweloperom korzystanie z checkpointów i adaptację modeli do własnych zastosowań.
Podsumowując, Olmo 3 łączy wysoką wydajność w benchmarkach z pełną przejrzystością procesu rozwoju: publikacja danych, skryptów i raportów ma umożliwić społeczności eksperymentowanie, dostrajanie i tworzenie wyspecjalizowanych wariantów modelu. Takie podejście przyczynia się do demokracji dostępu do zaawansowanych modeli językowych i ułatwia badania nad efektywnym wykorzystaniem danych treningowych.
