Anthropic udostępnił Claude Sonnet 4.5 — nową wersję swojego głównego modelu językowego, który firma określa jako „najlepszy model do kodowania na świecie”. Równocześnie Anthropic wprowadza szereg uzupełniających rozwiązań: aktualizacje Claude Code, zestaw narzędzi dla twórców agentów (Claude Agent SDK), rozszerzenie do Visual Studio Code oraz eksperyment „Imagine with Claude”, testujący generowanie oprogramowania i interfejsów w czasie rzeczywistym (dostępny wyłącznie dla subskrybentów Claude Max przez najbliższe pięć dni).
Co nowego w Sonnet 4.5?
Sonnet 4.5 ma lepiej niż poprzednicy rozumieć i wykonywać polecenia oraz bardziej niezawodnie refaktoryzować istniejący kod. W benchmarku SWE-Bench Verified — który ocenia, jak modele radzą sobie z prawdziwymi pull requestami z GitHub — Sonnet 4.5 osiąga wynik 77,2% (a przy zastosowaniu równoległych obliczeń w czasie testu wynik rośnie do 82%).
W niektórych zadaniach Sonnet 4.5 przewyższa nawet Opus 4.1 (flagowy model Anthropic), między innymi w problemach z obszaru usług finansowych. Na benchmarku OSWorld, mierzącym wydajność modeli w realistycznych zadaniach związanych z obsługą komputera, Sonnet 4.5 osiągnął pierwsze miejsce z wynikiem 61,4%, co stanowi wyraźny skok względem Sonnet 4 (43,9%) i także przekracza wynik Opus 4.1 (około 44%).
Długotrwałe i złożone zadania
Model znacząco poprawił zdolność do samodzielnej pracy nad długotrwałymi, złożonymi zadaniami: Sonnet 4.5 może działać autonomicznie przez do około 30 godzin, w porównaniu z siedmioma godzinami dla Opus 4. To oznacza, że model ma utrzymywać koncentrację i wydajność przez dłuższy „horyzont czasowy”, chociaż ostateczna ocena w warunkach produkcyjnych będzie wymagać dodatkowych testów.
Anthropic twierdzi też, że Sonnet 4.5 jest pierwszym ich modelem zdolnym do samodzielnego odbudowania aplikacji webowej Claude.ai — proces trwał około pięciu i pół godziny i obejmował ponad 3 000 użyć narzędzi.
Porównanie z konkurencją
W prawie wszystkich testach kodowania Sonnet 4.1 (jak podaje firma) wyprzedza konkurentów, takich jak OpenAI GPT-5 i Google Gemini 2.5 Pro. W zadaniach wymagających rozumowania wizualnego Anthropic przyznał jednak, że konkurencja nadal ma przewagę — to obszar, nad którym modele Anthropic wciąż pracują.
Nowe możliwości techniczne
Kluczową zmianą w Sonnet 4.5 jest udostępnienie mu zestawu funkcji podobnych do tych, z których korzysta agent Claude Code: dostęp do maszyn wirtualnych i pamięci, poprawione zarządzanie kontekstem oraz wsparcie dla scenariuszy z wieloma agentami. To poszerzenie możliwości modelu ma znaczenie praktyczne — umożliwia mu wykorzystywanie zewnętrznych narzędzi i dłuższych kontekstów przy rozwiązywaniu złożonych problemów programistycznych.
Cennik
Cena za Sonnet 4.5 pozostaje taka sama jak dla Sonnet 4: 3 USD / 15 USD za milion tokenów wejścia/wyjścia. Przybliżona wartość w złotych to około 13 zł / 65 zł za milion tokenów (kwoty orientacyjne, przeliczone według kursu przybliżonego do momentu publikacji).
Aktualizacje w Claude Code
Claude Code, środowisko agenta kodującego od Anthropic, także otrzymuje istotne ulepszenia. Firma deklaruje, że narzędzie generuje ponad 500 milionów dolarów przychodów w ujęciu run-rate, a jego wykorzystanie wzrosło ponad 10-krotnie w ostatnich trzech miesiącach. Dla deweloperów przygotowano natywne rozszerzenie do Visual Studio Code, które pozwala śledzić zmiany generowane przez Claude Code w czasie rzeczywistym dzięki wbudowanym diffom.
W terminalu Claude Code zyskał lepszą widoczność statusu oraz możliwość przeszukiwania historii promptów — funkcję praktyczną, gdy chcemy ponownie użyć uprzednio skutecznych zapytań. Wprowadzono również checkpointy ułatwiające wycofanie się do wcześniejszego stanu kodu, gdy agent zacznie działać niezgodnie z oczekiwaniami — wcześniej programiści musieli robić to ręcznie, np. poprzez commit do repozytorium lub lokalne kopie zapasowe.
Claude Agent SDK
Anthropic udostępnia też Claude Agent SDK, czyli zestaw narzędzi umożliwiający budowę agentów oparte na tej samej infrastrukturze, która zasila Claude Code. SDK zawiera elementy do orkiestracji agentów, zarządzania pamięcią i kontekstem, użycia narzędzi i zarządzania uprawnieniami — pozwalając deweloperom tworzyć własne, wyspecjalizowane agenty.
Po stronie API dodano narzędzie pamięci, które pomaga agentom podtrzymywać kontekst przy długotrwałych zadaniach, oraz funkcję automatycznego zarządzania kontekstem — Claude będzie mógł edytować okno kontekstowe i usuwać przeterminowane dane w miarę potrzeby, co ma ograniczyć „zanieczyszczenie” pamięci długich sesji.
„Imagine with Claude” — generowanie oprogramowania w czasie rzeczywistym
Eksperyment „Imagine with Claude” pokazuje, jak Sonnet 4.5 może tworzyć aplikacje i interfejsy „na żywo”: żaden kod nie jest przygotowany wcześniej — model generuje funkcjonalność w odpowiedzi na interakcję użytkownika. Anthropic przedstawia to jako demonstrację potencjału połączenia zdolnego modelu z odpowiednią infrastrukturą. Szczegóły techniczne działania usługi nie zostały ujawnione, a dostęp jest ograniczony czasowo do subskrybentów planu Claude Max (kolejne pięć dni).
Znaczenie zmian
Wprowadzone aktualizacje pokazują kolejne kroki w kierunku integracji modeli językowych z narzędziami developerskimi i środowiskami wykonawczymi. Wyższe wyniki w benchmarkach kodowania oraz możliwości pracy przez dłuższy czas sugerują rosnącą przydatność takich modeli przy złożonych, długotrwałych zadaniach inżynieryjnych. Ułatwienia w postaci rozszerzeń do IDE, checkpointów i narzędzi do zarządzania kontekstem redukują barierę wejścia dla zespołów programistycznych, a SDK daje firmom sposobność tworzenia własnych agentów dostosowanych do konkretnych potrzeb.
Jednocześnie obserwowany nadal dystans w zadaniach wizualnych oraz ograniczony charakter niektórych eksperymentów przypominają, że choć możliwości modeli rosną szybko, w praktycznych wdrożeniach nadal potrzebne będą testy, adaptacje i ostrożna weryfikacja wyników.

