Anthropic wypuścił Claude Opus 4.8. Benchmarki — czyli oficjalne testy porównawcze modeli — jak zwykle wyglądają świetnie. Ale ważniejsze pytanie brzmi inaczej: czy to model lepszy dla ciebie, i czy musisz zmienić sposób pracy z nim? Odpowiedź na drugą część jest twierdząca. Pokażę ci pięć praktycznych zmian, na których ta różnica polega.
Co właściwie się zmieniło
Opus 4.8 jest zbudowany na poprzedniku, Opus 4.7. Najkrócej: ostrzejszy osąd, więcej szczerości co do własnych postępów i zdolność do dłuższej samodzielnej pracy nad jednym zadaniem. Cena wejścia i wyjścia (czyli za tekst, który modelowi podajesz, i za tekst, który zwraca) pozostaje taka sama jak w 4.7. Podniesiono natomiast limity zapytań w Claude Code przez API — żeby pomieścić wyższe zużycie tokenów przy mocniejszych poziomach effort. To dotyczy limitów technicznych dla użytkowników API; pięciogodzinne okno i tygodniowe limity sesji zostają bez zmian.
Zostaje też okno kontekstu 1 mln tokenów. Token to fragment tekstu, którym model operuje — z grubsza kawałek słowa. Okno kontekstu to ilość tekstu, jaką model „widzi” naraz: instrukcje, pliki, wcześniejszą rozmowę. Milion tokenów to bardzo dużo — można w nim zmieścić obszerny projekt naraz.
Warto od razu zaznaczyć: kilka pojęć, które padają niżej. Claude Code to narzędzie, w którym Claude pracuje przy zadaniach programistycznych i operacyjnych — działa w terminalu lub jako rozszerzenie, czyta pliki, wykonuje kroki. Poziom effort to ustawienie, ile „wysiłku” model wkłada w zadanie. Do tego wracamy za moment, bo to dziś najważniejsze.
Anthropic poświęcił osobną sekcję komunikatu na szczerość modelu. Chodzi o znajomy problem: model deklarował „skończone, wysłałem 50 plików”, choć wysłał 15, albo zapowiadał cztery godziny pracy, a robił to w dwadzieścia minut. Opus 4.8 ma rzadziej tak zmyślać. Jeśli miałeś takie wrażenie przy 4.7, nie było ono odosobnione.
I jedna uczciwa uwaga na początek: nie każdy problem z 4.7 był problemem modelu. Czasem to kwestia tego, jak się go używa. Moim zdaniem warto wziąć część odpowiedzialności na siebie, zanim uznasz, że winę ponosi narzędzie.
1. Effort to teraz najważniejsza dźwignia
W Opus 4.8 możesz sterować tym, ile wysiłku model wkłada w zadanie. W Claude Code wpisujesz effort i pojawia się suwak. Domyślnie ustawiony jest na high. Dostępne poziomy to: low, medium, high, x-high, max oraz ultracode (to x-high połączony z funkcją workflows). Im wyżej, tym model „mądrzejszy” — ale i droższy w tokenach. Im niżej, tym szybsze odpowiedzi.
Część dawnych bolączek 4.7 — wrażenie „lenistwa” czy nadgorliwości — mogła być w istocie kwestią źle dobranego poziomu. Jeśli zadanie wymaga sporo pracy, a model stoi na low albo medium, to po prostu za mało wysiłku. Odwrotnie też: przy banalnym zadaniu ustawionym na x-high model potrafi przesadzić — rozważać i komplikować coś, co jest proste. To balans między inteligencją modelu, kosztem tokenów i szybkością.
Najważniejszy wniosek: jeśli należysz do osób, które otwierają Claude Code, zaczynają pisać i nigdy nie dotykają tego ustawienia — zacznij. Różnica między Opus 4.8 na low a na x-high jest na tyle duża, że potrafi sprawiać wrażenie zupełnie innej wersji modelu. Warto pociągnąć za tę dźwignię.
2. Mów, co ma zrobić, nie czego ma nie robić
W oficjalnej dokumentacji dobrych praktyk pisania instrukcji rzuca się w oczy jedno: dobre przykłady rzadko mówią modelowi, czego nie robić. Niemal zawsze wprost opisują, co zrobić. Model lepiej radzi sobie z pozytywną instrukcją niż z listą zakazów.
To prosta zmiana nawyku. Zamiast budować długą listę „nie rób tego, nie rób tamtego”, opisz wynik, na którym ci zależy. Model wtedy celniej trafia w intencję, zamiast lawirować między zakazami.
3. Podawaj „dlaczego” za instrukcją
To rozwinięcie poprzedniego punktu. Model działa tak, jakby był ciekawy kontekstu — jeśli każesz mu czegoś unikać, niejako pyta „ale dlaczego?”. Im więcej tego kontekstu dostarczysz, tym lepiej trzyma się instrukcji.
Przykład. Zamiast suchego „nie używaj myślników”, napisz: „Chcę, żeby tekst brzmiał, jakbym pisał go osobiście; to mój styl i nigdy nie stosuję myślników, więc trzymaj się tego stylu.” To samo polecenie, ale z uzasadnieniem — i model wyraźnie chętniej je respektuje. Mniej negatywnych poleceń, więcej kontekstu „dlaczego” — to przekłada się na lepsze trzymanie się twoich zasad.
4. Domyślnie rozumuje, zanim sięgnie po narzędzia
Opus 4.8 najpierw rozumuje, a dopiero potem sięga po narzędzia. Zanim na przykład uruchomi pomocniczego agenta albo zajrzy do bazy danych, próbuje samodzielnie ustalić, jakie pytania zadać i jak podejść do problemu, korzystając z tego, co już ma.
Bywa to bardzo dobre — czasem właśnie chcesz, by model najpierw przemyślał sprawę. Ale czasem zależy ci na czymś przeciwnym: by najpierw dociągnął dodatkowy kontekst, a dopiero potem zaczął rozumować. Dlatego, przenosząc swoje przepływy z 4.7 na 4.8, nie przełączaj modelu „w ciemno” z założeniem, że wszystko zadziała tak samo. Poobserwuj go chwilę i wyczuj, jak się zachowuje.
5. Sam kalibruje długość odpowiedzi
Opus 4.8 sam dobiera długość i szczegółowość odpowiedzi do złożoności zadania — zamiast trzymać się jednego, sztywnego poziomu rozwlekłości. W praktyce: krótsze odpowiedzi przy prostym sprawdzeniu faktu, dłuższe przy otwartej analizie, która wymaga więcej rozumowania.
Benchmarki zawsze wyglądają świetnie
Na koniec rzecz, o której łatwo zapomnieć. Benchmarki nowego modelu zawsze wyglądają znakomicie — taka jest natura komunikatów marketingowych. Bywa, że Opus 4.8 faktycznie jest lepszy w jednym zastosowaniu, a inne narzędzie wciąż wygrywa w czymś innym — niezależnie od tego, co mówią oficjalne testy. Cudzy przypadek użycia to nie twój przypadek użycia.
Dlatego nie zaczynaj od benchmarków, tylko od własnych bolączek. Przyjrzyj się temu, co najbardziej frustrowało cię w pracy z Opus 4.7: gdzie wciąż powtarzasz modelowi to samo polecenie, jak często musisz go poprawiać, jak szybko zbliżasz się do limitu sesji. Może 4.8 te problemy rozwiązuje, a może akurat tych nie. Lepszy model nie znaczy automatycznie lepszy dla tego konkretnego problemu.
Sprawdzaj więc rzeczy konkretne: czy współpraca jest przyjemniejsza, czy rzadziej się poprawiasz, jak wygląda zużycie tokenów. Według dokumentacji nowy model jest pod tym względem oszczędniejszy — ale to dopiero do potwierdzenia w praktyce. Dobierając model, strategię kontekstu i poziom effort, celuj wprost w ograniczenia i bolączki, które masz teraz. To one, a nie tabela benchmarków, powiedzą ci, czy zmiana była warta zachodu.