Apple Planet
  • REDAKCJA
  • WSPÓŁPRACA
  • POLITYKA PRYWATNOŚCI
No Result
View All Result
  • Apple
  • Sztuczna inteligencja AI
  • Smartfony
  • Nauka i technika
  • Komputery & Tablety
  • Security
  • Nowinki
    • Recenzje
    • Poradniki
  • GSMINFO Serwis
wtorek, 23 grudnia, 2025
  • Apple
  • Sztuczna inteligencja AI
  • Smartfony
  • Nauka i technika
  • Komputery & Tablety
  • Security
  • Nowinki
    • Recenzje
    • Poradniki
  • GSMINFO Serwis
No Result
View All Result
Apple Planet
No Result
View All Result
Home Sztuczna inteligencja AI

Olmo 3 poprawia wydajność otwartych modeli językowych

od Pan z ApplePlanet
23 grudnia, 2025
w Sztuczna inteligencja AI
0
Olmo 3 poprawia wydajność otwartych modeli językowych
465
SHARES
1.5k
VIEWS
Udostępnij na FacebookuUdostępnij na Tweeterze

20 listopada 2025 — Frederic Lardinois

Allen Institute for AI (Ai2) zaprezentował Olmo 3, nową rodzinę otwartoźródłowych modeli językowych (LLM). Instytut określa ją jako „najlepszy amerykański model open source w tej skali” oraz „najlepszy 7B zachodni model typu instruct i thinking na rynku”. Ogłoszenie podkreśla nie tylko wyniki benchmarków, lecz także podejście do pełnej przejrzystości procesu trenowania — od danych po skrypty szkoleniowe — co wyróżnia Ai2 obok inicjatyw takich jak Stanford Marin czy szwajcarskie Apertus.

Co to jest Olmo 3 i jakie są jego warianty

Olmo 3 to rodzina modeli udostępniona na licencji Apache 2.0. Zawiera trzy główne warianty: Olmo 3-Base (w wersjach 7B i 32B), Olmo 3-Think (7B i 32B) oraz Olmo 3-Instruct (7B). W zapisie „7B” i „32B” litera B oznacza miliardy parametrów modelu — odpowiednio 7 i 32 miliardy — co daje wyobrażenie o skali sieci neuronowej. Wariant „Base” stanowi podstawę pozostałych dwóch wariantów; „Think” został zaprojektowany do rozumowania krok po kroku i generowania śladów myślenia (intermediate thinking traces), a „Instruct” skupia się po post-treningu na ścisłym wykonywaniu poleceń, dialogu wielokrotnego i użyciu narzędzi.

Wydajność i benchmarki

Ai2 twierdzi, że Olmo 3 osiąga lepsze rezultaty niż wiele innych otwartoźródłowych modeli i modeli o otwartych wagach w standardowych benchmarkach. W szczególności model Olmo 3-Think 32B wypada porównywalnie do Qwen 3-32B-Thinking, mimo że był trenowany przy użyciu zaledwie jednej szóstej liczby tokenów wykorzystanych przez konkurencję. To istotne, ponieważ liczba tokenów użytych w treningu wpływa na koszty i czas trenowania — osiągnięcie zbliżonej jakości przy mniejszej liczbie danych może oznaczać bardziej wydajny proces rozwoju modelu.

Dla wariantu Instruct (7B) zespół skupiał się na dostrojeniu po głównym treningu tak, aby model lepiej wykonywał polecenia, obsługiwał wielokrotne rundy dialogu i korzystanie z narzędzi. Ai2 ocenia, że ten wariant przewyższa takie modele jak Qwen 2.5, Google Gemma 3 i Llama 3, a w niektórych testach zbliża się do Qwen 3.

Architektura Olmo 3 nie odbiega zasadniczo od poprzednika (Olmo 2), ale zespół wprowadził istotne modyfikacje: podczas pre-treningu i mid-treningu powiększono okno kontekstu do 8192 tokenów, a w trzech na cztery warstwy zastosowano wzorzec „sliding window attention” (uwaga w przesuwanym oknie). Te zmiany pomagają modelowi przetwarzać dłuższe fragmenty tekstu i efektywniej wykorzystywać pamięć podczas generowania odpowiedzi.

Otwartość: „model flows” i dostępność materiałów

Jednym z istotnych elementów publikacji Ai2 jest pełna otwartość tzw. „model flows” — czyli szczegółowych etapów trenowania modeli i używanych przetrenowań. Jak wyjaśnia Hanna Hajishirzi, dyrektor ds. AI w Ai2, udostępnienie tych etapów ma na celu pokazanie deweloperom, jak zbudować zaawansowane modele oraz umożliwienie im tworzenia własnych wariantów i dostrajania na bazie udostępnionych checkpointów.

Pradeep Dasigi, starszy naukowiec w Ai2, podkreśla, że udostępnione „recipes” danych i skrypty pozwalają na łatwiejszą specjalizację modeli do konkretnych dziedzin, np. biomedycyny. Zespół przekazuje raporty opisujące, które podejścia zadziałały, a które nie, tak by inni mogli powtarzalnie tworzyć lub syntetyzować zestawy danych i kontynuować dostrajanie od wybranych checkpointów.

Dane treningowe i narzędzia

Ai2 udostępnia również zbiory pre-treningowe Dolma 3 oraz zestaw danych do post-treningu Dolci, wraz z narzędziami ewaluacyjnymi i kodem narzędzi reinforcement learning użytym przy trenowaniu wariantów modeli. Zbiór Dolma 3 składa się głównie z danych webowych (m.in. Common Crawl), kodu z GitHub, obszernego zestawu artykułów naukowych, treści z Wikipedii oraz stron związanych z matematyką.

Aby poprawić jakość danych, zespół przeprowadził deduplikację oraz użył OCR dla wielu artykułów naukowych, a także opracował narzędzia do oceny, które fragmenty danych rzeczywiście poprawiają wydajność modelu. Jak tłumaczy Hajishirzi, świadome badanie „praw skalowania” i staranna metodologia eksperymentów pozwoliły wykrywać sygnały poprawy przy relatywnie mniejszych i tańszych jednostkach eksperymentalnych, co ułatwiło selekcję przydatnych fragmentów np. z PDF-ów.

Dostępność i dokumentacja

Ai2 udostępniło pełną dokumentację techniczną opisującą procedury treningowe oraz sposób budowy zbiorów treningowych. Wszystkie modele i zbiory danych są publicznie dostępne na platformie Hugging Face, co ułatwia deweloperom korzystanie z checkpointów i adaptację modeli do własnych zastosowań.

Podsumowując, Olmo 3 łączy wysoką wydajność w benchmarkach z pełną przejrzystością procesu rozwoju: publikacja danych, skryptów i raportów ma umożliwić społeczności eksperymentowanie, dostrajanie i tworzenie wyspecjalizowanych wariantów modelu. Takie podejście przyczynia się do demokracji dostępu do zaawansowanych modeli językowych i ułatwia badania nad efektywnym wykorzystaniem danych treningowych.

Share186Tweet116
Poprzedni artykuł

Szafka arcade NBA Jam Deluxe tańsza o 150 USD w kilku sklepach.

Polub nas i bądź na bieżąco

Ostatnie Wpisy

  • Olmo 3 poprawia wydajność otwartych modeli językowych 23 grudnia, 2025
  • Szafka arcade NBA Jam Deluxe tańsza o 150 USD w kilku sklepach. 23 grudnia, 2025
  • Obniżki cen na bezprzewodową klawiaturę i mysz 8BitDo Xbox Edition 23 grudnia, 2025
  • Apple dopuści alternatywne sklepy z aplikacjami na iOS w Brazylii do kwietnia 23 grudnia, 2025
  • iPhone 18 Pro zadebiutuje w przyszłym roku z 12 nowościami. 23 grudnia, 2025

Informacje

  • Polityka prywatności
  • Redakcja
  • Współpraca
  • REDAKCJA
  • WSPÓŁPRACA
  • POLITYKA PRYWATNOŚCI

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Apple
  • Sztuczna inteligencja AI
  • Smartfony
  • Nauka i technika
  • Komputery & Tablety
  • Security
  • Nowinki
    • Recenzje
    • Poradniki
  • GSMINFO Serwis