Tani wykonawca, drogi doradca — jak dobierać model AI do zadania · Wiki

Najdroższy model nie jest odpowiedzią na każde pytanie. To pierwsza rzecz, którą warto sobie powiedzieć na głos, bo odruch jest dokładnie odwrotny: skoro mam dostęp do najmocniejszego modelu, to używam go do wszystkiego. I właśnie tak płaci się kilkukrotnie więcej za pracę, którą tańszy model wykonałby równie dobrze.

Pokażę ci inną logikę — taką, w której tani, szybki model robi większość roboty, a drogi model wzywasz tylko wtedy, gdy faktycznie jest potrzebny. Najpierw wyjaśnię, dlaczego cena modeli rozjeżdża się tak mocno, potem jak rozpoznać, które zadanie należy do „wykonawcy”, a które do „doradcy”, a na końcu pokażę konkretny sposób, żeby ustawić to u siebie.

Dlaczego to w ogóle ma znaczenie dla kosztów

Modele językowe — czyli te „mózgi”, które czytają twoje polecenie i piszą odpowiedź — rozliczają się za tokeny. Token to mniej więcej fragment słowa; im dłuższe polecenie i im dłuższa odpowiedź, tym więcej tokenów, tym wyższy rachunek. I tu jest pierwsza rzecz, o której mało kto pamięta: tekst, który model generuje (output), kosztuje sporo więcej niż tekst, który czyta (input). To reguła niemal we wszystkich modelach.

Spójrzmy na rodzinę Claude, bo różnice są wymowne. Najmocniejszy model, Opus, kosztuje 5 dolarów za milion tokenów wejściowych i 25 dolarów za milion wyjściowych. Średni, Sonnet — 3 dolary za wejście i 15 za wyjście. Najlżejszy, Haiku — 1 dolar za wejście i 5 za wyjście. (To ceny producenta dla wersji aktualnych na początku 2026 roku; same liczby się zmieniają, ale proporcja między modelami trzyma się od dawna.)

Patrząc na to inaczej: za pracę, którą Opus wykonuje za 25 dolarów, Haiku bierze 5. Pięciokrotna różnica na wyjściu. Jeśli puszczasz przez najdroższy model wszystko — także proste odpowiedzi, streszczenia, wyszukiwanie w bazie — przepłacasz dokładnie za tę różnicę, i to przy każdym zapytaniu.

Wykonawca i doradca — dwie różne role

Tu wchodzi obserwacja, na której opiera się cała ta strategia. Wyobraź sobie zadanie złożone z trzech kroków: A, B, C. Tylko krok A jest na tyle trudny, że potrzebujesz mocnego modelu rozumującego. Kroki B i C są proste. Po co marnować pieniądze na to, żeby najdroższy model robił B i C, skoro tani model zrobi je równie skutecznie za ułamek ceny?

Stąd podział na dwie role:

Wykonawca — tani, szybki model (np. Sonnet albo Haiku), który prowadzi większość pracy: czyta, wyszukuje, odpowiada na proste pytania, wykonuje rutynowe kroki.
Doradca — drogi, mocny model (Opus), do którego wykonawca sięga tylko wtedy, gdy sam rozpozna, że zadanie go przerasta. Doradca pomaga zaplanować trudny fragment, podjąć trudną decyzję albo sprawdzić to, co wykonawca przygotował.

Klucz jest w słowie „tylko wtedy”. To nie jest tak, że doradca pracuje cały czas w tle. Wykonawca prowadzi rozmowę i sam decyduje, czy dane pytanie wymaga wyższej inteligencji. Jeśli nie wymaga — odpowiada sam, tanio. Jeśli wymaga — eskaluje do doradcy. To eskalacja sterowana trudnością, a nie używanie maksymalnej mocy „na wszelki wypadek”.

Abstrakcyjny diagram: mały, szybki węzeł-wykonawca po lewej obsługuje strumień prostych zadań, a jedno trudne zadanie eskaluje wyżej do dużego węzła-doradcy w stalowym błękicie.

Co mówią liczby producenta

Dostawca opublikował własne testy tej strategii — i tu jedna ważna uwaga: to benchmarki producenta na zadaniach programistycznych, nie twoje. Traktuj je jak wskazówkę kierunku, nie jak obietnicę wyniku u ciebie.

W jednym z tych testów Sonnet jako wykonawca z Opusem jako doradcą wypadł o 2,7 punktu procentowego lepiej w standardowym teście rozwiązywania problemów programistycznych niż sam Sonnet — i przy tym obniżył koszt pojedynczego zadania o prawie 12 procent. Czyli jednocześnie lepiej i taniej.

W drugim, ostrzejszym teście Haiku (najtańszy model) jako wykonawca z Opusem jako doradcą uzyskał wynik ponad dwukrotnie wyższy od tego, co Haiku osiąga samodzielnie. Ten układ kosztuje więcej niż samo Haiku — to oczywiste, bo dochodzi droga konsultacja. Ale wciąż wychodzi taniej, niż gdyby całe zadanie poprowadził sam Opus. To jest cała idea w jednym zdaniu: zbliżasz się do jakości najmocniejszego modelu, płacąc ułamek jego ceny.

Jak rozpoznać, co jest pracą wykonawcy, a co doradcy

Zanim cokolwiek ustawisz, warto popatrzeć na własne zadania pod tym kątem. Z mojej obserwacji granica przebiega tak:

Praca wykonawcy (tani model w zupełności wystarcza): - odpowiedzi na proste, powtarzalne pytania, - wyszukiwanie i streszczanie tego, co już masz w dokumentach, - rutynowe kroki, w których wiadomo, co ma się wydarzyć, - pierwsze przejście przez materiał, zanim w ogóle wiesz, czy jest trudny.

Praca doradcy (warto sięgnąć po mocny model): - zaplanowanie czegoś złożonego, zanim zacznie się robota, - decyzja obarczona ryzykiem albo niejednoznaczna, - sprawdzenie i ocena tego, co wykonawca przygotował, - moment, w którym tani model „się zacina” i widać, że nie radzi sobie z problemem.

I uczciwa uwaga, której nie pominę: to, że Sonnet wezwał doradcę przy pytaniu, którego Haiku nie uznało za trudne, nie znaczy automatycznie, że któryś jest „lepszy”. To znaczy, że oceniają trudność trochę inaczej — i że twoim zadaniem jest sprawdzić, który układ daje u ciebie odpowiedzi, które naprawdę chciałbyś wysłać.

Jak ustawić to u siebie — tryb planowania w Claude Code

Najprostszy, codzienny sposób na tę strategię nie wymaga niczego budować. Jeśli pracujesz w Claude Code (asystencie, który działa w terminalu i potrafi sięgać do twoich plików), masz to gotowe.

Mechanizm nazywa się trybem planowania i działa tak: mocny model planuje, tani wykonuje.

Wpisz polecenie /model — zobaczysz listę dostępnych modeli (domyślny, Sonnet, Haiku i inne).
Wybierz wariant „Opus Plan”. Ustawia on mocny model Opus tylko w trybie planowania, a do całej reszty pracy używa tańszego Sonneta.
Gdy formułujesz, co ma się wydarzyć — jesteś w trybie planowania, więc myśli za ciebie mocny model. Macie się dogadać, zanim cokolwiek się wykona.
Gdy zatwierdzasz plan i przechodzisz do wykonania — narzędzie samo przełącza się na tańszego Sonneta, który realizuje ustalony plan.

Praktyczna zasada, do której się sprowadza: używaj najmocniejszego modelu tylko wtedy, gdy go potrzebujesz, a poza tym trzymaj się tańszego. Najtrudniejszy, najbardziej kosztowny myślowo moment to zwykle ustalenie planu — tam mocny model zarabia na siebie. Samo wykonanie gotowego planu to już praca wykonawcy.

Abstrakcyjny obraz: duży świetlisty węzeł po lewej układa uporządkowany plan w równą strukturę i przekazuje gotowy, poukładany ciąg ogniw mniejszemu węzłowi po prawej, który go realizuje.

Najpierw przetestuj, dopiero potem ufaj

Jest jeden warunek, bez którego cała oszczędność jest pozorna. Tańszy rachunek ma sens tylko wtedy, gdy nie tracisz na jakości. A tego nie sprawdzisz na trzech zapytaniach.

Zanim wpuścisz tę strategię do czegoś, na czym ci zależy — obsługi klienta, generowania ofert, analizy dokumentów — przepuść przez każdy układ kilkadziesiąt, najlepiej kilkaset realnych zapytań i zobacz, który konsekwentnie daje odpowiedzi, jakie chcesz wysłać. Kilka prób to za mało, żeby cokolwiek twierdzić. Dopiero powtarzalny wynik na twoich własnych przypadkach jest dowodem. Twój przypadek użycia nie jest cudzym przypadkiem użycia — i to ty musisz to zweryfikować.

To zresztą zasada szersza niż jeden mechanizm w jednym narzędziu. Moc i koszt modelu dobierasz do zadania, nie do ambicji. Tani, szybki model do większości pracy; drogi, mocny — wzywany świadomie, w policzalnych momentach, gdzie naprawdę zmienia wynik. Następnym razem, gdy złapiesz się na odruchu „dam najmocniejszy, żeby mieć spokój”, zatrzymaj się na jedno pytanie: który fragment tej pracy jest naprawdę trudny — i czy reszta nie poradzi sobie taniej.