Nowy Claude Opus 4.5 odzyskuje pozycję lidera w kodowaniu

Anthropic wprowadził na rynek nową wersję swojego flagowego modelu — Opus 4.5. Firma określa go jako „najinteligentniejszy” model w swojej ofercie, ze szczególnym wzmocnieniem zdolności do rozwiązywania zadań programistycznych: Opus 4.5 uzyskał wynik 80,9% w teście SWE‑Bench Verified, wyprzedzając pod tym względem modele OpenAI (GPT‑5.1‑Codex‑Max) i Google (Gemini 3). Równocześnie Anthropic znacząco obniżył ceny API — nowa stawka to 5 USD za milion tokenów wejściowych i 25 USD za milion tokenów wyjściowych (odpowiednio ≈21,5 zł i ≈107,5 zł przy przybliżonym kursie 1 USD ≈ 4,3 zł), wobec poprzednich 15 USD/75 USD za milion tokenów (≈64,5 zł/≈322,5 zł).

Co oznaczają te zmiany

Obniżka cen oraz poprawa wyników w zadaniach koderskich to sygnał, że Anthropic stawia na konkurencyjność cenową i praktyczną użyteczność swoich modeli. W świecie szybkich premier — gdzie w ostatnich tygodniach pojawiły się m.in. GPT‑5.1 i Gemini 3 — takie ruchy wpływają bezpośrednio na decyzje firm i deweloperów wybierających narzędzia do automatyzacji pracy programistycznej. Zmiany te mogą obniżyć koszty korzystania z modelu w produkcji i zwiększyć dostępność Opus 4.5 dla zespołów pracujących nad integracją AI w swoich procesach.

Benchmarki i rzeczywiste zastosowania

Opus 4.5 jest reklamowany przede wszystkim jako mocny w zadaniach programistycznych, ale Anthropic podkreśla też lepsze wyniki w tworzeniu dokumentów, arkuszy kalkulacyjnych i prezentacji — z większą spójnością, profesjonalnym wykończeniem i świadomością kontekstu dziedzinowego. Wyniki benchmarków wskazują, że model przewyższa konkurencję „na papierze”, jednak autorzy testów oraz eksperci zwracają uwagę, że syntetyczne benchmarki nie zawsze w pełni oddają złożoność rzeczywistych zastosowań.

W ramach wewnętrznego testu Anthropic zastosował wobec Opus 4.5 ten sam egzamin, który przechodzą kandydaci na stanowiska inżynierskie: dwugodzinne zadanie oceniające umiejętności techniczne. Model osiągnął wynik wyższy niż jakikolwiek kandydat do tej pory, co firma traktuje jako dowód wzrostu zdolności modelu do praktycznego rozwiązywania problemów. Alex Albert, szef relacji z deweloperami w Anthropic, stwierdził, że model lepiej niż poprzednicy łączy rozproszone informacje (np. wiadomości ze Slacka i e‑maile) i potrafi wygenerować przydatny, gotowy do użycia rezultat, który wcześniej wymagał znacznie więcej nadzoru ze strony użytkownika.

Parametr „effort” — kontrola czasu i kosztu

Nowością w Opus 4.5 jest parametr „effort” (niski, średni, wysoki), pozwalający użytkownikom określić, ile zasobów czasowych i tokenów model może poświęcić na rozwiązanie zadania. Według Anthropic, ustawienie „medium” daje wynik porównywalny z Sonnet 4.5 w benchmarku SWE‑Bench Verified, przy jednoczesnym zużyciu o 76% mniejszej liczby tokenów. Nawet w ustawieniu „high”, gdzie Opus 4.5 przewyższa Sonnet 4.5 pod względem dokładności, model zużywa około połowy tokenów potrzebnych Sonnetowi. Taka efektywność jest istotna, bo bezpośrednio przekłada się na koszty korzystania z modelu i jego praktyczną opłacalność.

Lepsze wsparcie dla zadań „na komputerze” i porządkowanie oferty

Anthropic deklaruje, że Opus 4.5 to jego najlepszy dotychczas model do zastosowań „komputerowych” — czyli integracji z przeglądarką i narzędziami desktopowymi. W praktyce firma udostępniła rozszerzenie Chrome dla wszystkich subskrybentów planu Claude Max (kosztującego 100 USD/mies. i więcej, ≈430 zł/mies.), co pozwala modelowi na wykonywanie zadań bezpośrednio w środowisku przeglądarki. Chociaż funkcje przeglądarkowe i operacje na komputerze wciąż bywają powolne i podatne na błędy, Opus 4.5 ma osiągać znacząco lepsze wyniki niż poprzednie generacje.

Wcześniej Anthropic znalazł się w sytuacji, w której model średniej klasy (Sonnet) w wielu zadaniach przewyższał starszy, droższy Opus 4.1, co ograniczało sens stosowania wyższej klasy modeli na co dzień. Opus 4.5 przywraca wyraźne rozróżnienie między trzema poziomami oferty (Haiku, Sonnet 4.5 i Opus 4.5), co pozwala klientom dobierać model zgodnie z konkretnymi potrzebami i budżetem. Jak zauważa Alex Albert, nowy model niekoniecznie ma natychmiast zmusić wszystkich do migracji, ale otwiera „nowy zestaw możliwości” dla zastosowań wymagających najwyższej wydajności.

Aktualizacje platformy dla deweloperów

Obok samego modelu Anthropic wprowadza dwie istotne zmiany w Claude Developer Platform, które ułatwią pracę programistom korzystającym z Opus 4.5. Po pierwsze, zaktualizowano tryb planowania w Claude Code — ma on teraz tworzyć bardziej precyzyjne plany realizacji zadań i konsekwentniej się ich trzymać. Po drugie, dodano wsparcie dla Claude Code w aplikacji desktopowej, co pozwala uruchamiać zadania koderskie bezpośrednio na pulpicie lub w środowisku chmurowym oraz prowadzić wiele sesji Claude Code równolegle — zarówno lokalnie, jak i zdalnie.

W praktycznym ujęciu te zmiany mają ułatwić integrację modelu z codziennymi procesami programistycznymi — od planowania funkcji po równoległe eksperymenty i debugowanie — zmniejszając tarcie między sugestią generowaną przez AI a jej wdrożeniem w kodzie.

Podsumowując, Opus 4.5 to próba połączenia wyższej jakości wyników z redukcją kosztów użycia: szybsze, bardziej ekonomiczne rozwiązywanie zadań programistycznych oraz nowe funkcje dla deweloperów mogą sprawić, że model stanie się bardziej atrakcyjny dla zespołów wdrażających AI w codziennej pracy.

Nowy Claude Opus 4.5 odzyskuje pozycję lidera w kodowaniu

Sędzia federalny zablokował texaską ustawę o weryfikacji wieku w sklepach z aplikacjami

Sztuczna inteligencja poprawia ocenę ryzyka w raku gardła

Sztuczna inteligencja poprawia ocenę ryzyka w raku gardła

Polub nas i bądź na bieżąco

Ostatnie Wpisy

Informacje

Welcome Back!

Retrieve your password

Add New Playlist