Jak nie wyczerpywać limitu sesji w Claude — zarządzanie tokenami w praktyce · Wiki

Limit sesji w Claude wyczerpuje się głównie z jednego powodu: przy każdej wiadomości model czyta od nowa całą dotychczasową rozmowę i nalicza za to tokeny. Im dłuższa rozmowa, tym koszt rośnie nie po trochu, lecz lawinowo. Dobra wiadomość jest taka, że to kwestia nawyków, a nie tajemnej wiedzy — kilka prostych zmian sprawia, że ten sam abonament starcza na znacznie więcej pracy. Pokażę ci, skąd biorą się te koszty i co z tym zrobić.

Kilka pojęć na start

Zanim przejdę dalej, ustalę słownik. Token to najmniejszy fragment tekstu, który model czyta i za który nalicza opłatę — z grubsza kawałek słowa, choć nie jest to ścisła reguła. Sesja to pojedyncza, ciągła rozmowa z modelem. Limit sesji to pułap zużycia, po którym musisz poczekać na reset, zanim popracujesz dalej. Model to sam silnik AI, który odpowiada — na przykład Claude w różnych wersjach.

Okno kontekstu to ilość tekstu, jaką model „widzi” naraz: instrukcje systemowe, całą rozmowę, każde wywołanie narzędzia i jego wynik, każdy plik, który przeczytał. To jego bieżąca pamięć robocza. Claude Code to narzędzie, w którym Claude pracuje przy zadaniach programistycznych i operacyjnych — czyta pliki, wykonuje kroki, korzysta z narzędzi. Daje ono okno kontekstu rzędu miliona tokenów, czyli bardzo dużo.

Tyle że zanim cokolwiek wpiszesz, część tego okna jest już zajęta. Plik z instrukcjami projektu, podłączone narzędzia, dodatkowe umiejętności — to wszystko ładuje się na starcie. Typowy narzut to około 8 tysięcy tokenów, ale potrafi sięgnąć 62 tysięcy zajętych już na świeżej sesji. Warto to sprawdzić: w Claude Code polecenie /context pokazuje, ile masz zajęte, zanim w ogóle zaczniesz. Czasem to sygnał, żeby coś usunąć albo przenieść gdzie indziej.

Dlaczego koszt rośnie lawinowo

Najważniejsza rzecz do zrozumienia jest taka: przy każdej nowej wiadomości model czyta całą rozmowę od początku. Pytanie pierwsze, swoją odpowiedź, pytanie drugie, odpowiedź — i tak za każdym razem aż do ostatniego polecenia. Dlatego koszt się nie dodaje, lecz narasta. Pierwsza wiadomość może kosztować 500 tokenów, a trzydziesta — kilkanaście tysięcy, bo wraz z nią model przerabia wszystko, co było wcześniej.

Jest na to konkretna obserwacja: pewien programista prześledził rozmowę liczącą ponad sto wiadomości i policzył, że 98,5% wszystkich tokenów poszło wyłącznie na ponowne czytanie wcześniejszej historii. Można się spierać, że model rzeczywiście tego kontekstu potrzebuje — ale taka proporcja to ogromne marnotrawstwo. To z niej wynikają niemal wszystkie nawyki opisane niżej.

Gnijący kontekst — gdy dłuższa rozmowa pogarsza odpowiedzi

Jest jeszcze drugi koszt, mniej oczywisty niż tokeny. W miarę jak sesja rośnie, jakość odpowiedzi spada — bo uwaga modelu rozkłada się na coraz większą liczbę tokenów. Model zaczyna się rozpraszać, gubić wątek, zaprzeczać sobie, edytować pliki bez wcześniejszego przeczytania. Pół żartem nazywam to „demencją AI”; w materiałach Anthropic figuruje jako gnijący kontekst (context rot).

Liczby to potwierdzają. Trafność wyszukiwania informacji w oknie spada z 92% przy 256 tysiącach tokenów do 78% przy milionie. Innymi słowy: nawet jeśli zdołasz zapełnić całe milionowe okno, model będzie wyraźnie gorzej odnajdywał w nim to, czego potrzebuje. A gorszy model to gorsza wydajność tokenów — żeby uzyskać ten sam efekt, musisz zużyć ich więcej. Stąd prosty wniosek: większe okno nie znaczy lepszy wynik. To raczej zapas bezpieczeństwa niż cel, który trzeba zapełnić.

Abstrakcyjny obraz: po lewej czysty, jasny strumień światła, po prawej ten sam strumień rozproszony w mglistą, przygaszoną plamę — kontrast między świeżą a przeładowaną sesją.

Pięć rzeczy, które możesz zrobić po każdej odpowiedzi

Materiał Anthropic ujmuje to klarownie: po każdej odpowiedzi modelu masz pięć opcji. Możesz kontynuować — po prostu napisać kolejną wiadomość (łatwo wpaść w ten odruch i ciągnąć rozmowę bez końca). Możesz użyć /rewind — cofnąć się do wcześniejszej wiadomości i skasować wszystko, co było po niej. Możesz zrobić /clear — zacząć całkiem od nowa. Możesz /compact — streścić sesję i zastąpić historię tym streszczeniem. Albo możesz zlecić zadanie podagentowi, czyli oddelegować je do świeżego okna kontekstu i odebrać sam wynik.

Najważniejszy nawyk, który zaleca Anthropic, to /rewind. Gdy model zrobi coś źle, większość z nas pisze po prostu „to nie zadziałało, spróbuj inaczej”. Często pomaga — ale ta nieudana próba, błędny kod i zła ścieżka zostają w kontekście i są odczytywane przy każdej kolejnej wiadomości, zaśmiecając dalsze odpowiedzi. /rewind cofa cię do punktu sprzed błędu, a kontekst zostaje czysty.

Czyszczenie, kompaktowanie i podsumowania

Zasada z dokumentacji jest prosta: zaczynasz nowe zadanie — rób /clear; kontynuujesz to samo — rób /compact. Kompaktowanie to właśnie zwijanie dotychczasowej rozmowy w streszczenie. Problem w tym, że Claude Code uruchamia je automatycznie dopiero przy jakichś 95% zapełnienia okna — czyli moim zdaniem o wiele za późno. Przy automatycznym kompaktowaniu zostaje raptem 20–30% pierwotnych szczegółów, a model robi to streszczenie w najgorszym dla siebie momencie, u szczytu gnijącego kontekstu. To jak pakowanie walizki pięć minut przed wyjściem zamiast spokojnie, dzień wcześniej.

Polecam własny wariant, który zwykle najmocniej odciąża limit sesji. Zanim dojdziesz do granicy, poproś model o pełne podsumowanie: co dotąd zrobione i co robimy dalej. Bierzesz to streszczenie, robisz /clear, wklejasz je z powrotem i pracujesz na świeżej sesji — z całym potrzebnym kontekstem, jakby nic się nie resetowało. Warunek jest jeden: skoro tracisz historię rozmowy, musisz zapisywać ustalenia gdzie indziej — w plikach z planem, dziennikach decyzji, listach zadań. To jak zamknięcie wszystkich kart w przeglądarce przy zachowanych zakładkach.

Podagenci, czyli oddawanie pracy na bok

Podagent to osobny pomocnik, który dostaje własne, świeże okno kontekstu, wykonuje swoje zadanie i odsyła do twojej głównej sesji sam wynik. Wyobraź sobie stażystę: jeśli ma przejrzeć pięćdziesiąt artykułów, nie siadasz obok i nie czytasz ich razem z nim — prosisz tylko o gotowe podsumowanie. Tak samo tutaj: cała żmudna robota dzieje się poza twoim oknem, więc nie zaśmieca głównej rozmowy. Możesz wprost napisać: „uruchom podagenta, żeby to zweryfikował”. Co więcej, podagent może korzystać z tańszego modelu, co dodatkowo obniża koszt przy zbliżonej jakości. Sztuką jest wyczuć, które zadania nadają się do oddelegowania.

Mniej tokenów u źródła

Kilka prostszych chwytów zmniejsza zużycie, zanim w ogóle zacznie się rozmowa.

Zamieniaj pliki na markdown. Markdown to lekki format zapisu samego tekstu, bez zbędnego oprawiania. Konwersja z HTML potrafi obciąć około 90% tokenów, z PDF mniej więcej 65–70%, z plików docx około 33% — model nie musi przerabiać układu strony i formatowania, wystarcza mu sama treść. (Wyjątkiem są skany wymagające rozpoznawania tekstu z obrazu; tam reguła nie działa.)
Pilnuj pliku z instrukcjami projektu. Plik typu claude.md ładuje się przy każdej sesji, więc jego rozdęcie kosztuje za każdym razem. Radzę trzymać go poniżej około 200 wierszy (mniej więcej 2 tysiące tokenów) i wpisywać tylko to, czego model naprawdę potrzebuje; resztę przenieść do umiejętności i plików doczytywanych na żądanie.
Zacznij od planu. Tworzenie planu przed budowaniem zużywa tokeny z góry, ale oszczędza je później — bo model rzadziej brnie w ślepą uliczkę i mniej trzeba go poprawiać.
Obserwuj wskaźnik limitu. Sam podgląd, ile sesji zostało, zmienia decyzje: czy wysłać to polecenie teraz, czy uruchomić zespół agentów. Jedna szczera uwaga ode mnie — część problemów z modelem to nie wina narzędzia, tylko sposobu pracy. Warto wziąć trochę odpowiedzialności na siebie.

Abstrakcyjny obraz linii montażowej ze światła: trzy oddzielone segmenty — odkrywanie, planowanie, wykonanie — połączone jedną świetlistą taśmą na ciemnym tle.

Dlaczego nie warto zapełniać całego okna

Na koniec myśl, która spina to wszystko. Gdy ludzie słyszą „milion tokenów”, myślą, że mają tyle miejsca do swobodnego użycia — i robią się rozrzutni: przestają używać podagentów, przestają działać z rozmysłem, wrzucają wszystko do jednej wielkiej sesji. Tymczasem reguły działania modeli się nie zmieniły. Większe okno to nie lepszy wynik, tylko więcej miejsca na gnijący kontekst.

Dane to podpierają. W analizie 18 tysięcy bloków myślenia z 7 tysięcy sesji głębia rozumowania spadała o 67% wraz z długością sesji, a edycja plików bez ich przeczytania rosła z 6% do 34% — im dłuższa sesja, tym model robi się leniwszy i bardziej niechlujny. W skrajnym przypadku jeden użytkownik wskutek złych nawyków podniósł rachunek za tokeny z 345 dolarów do 42 tysięcy dolarów miesięcznie, a jakość pracy została płaska — ten sam efekt, drastycznie wyższy koszt.

Wniosek nie jest skomplikowany. Prawdziwie produktywne są pierwsze kilkanaście–dwadzieścia procent sesji, gdy model jest najświeższy. Jeśli dopiero zaczynasz, zostań na chwilę przy mniejszym, dwustutysięcznym oknie i wyrób sobie dyscyplinę: czyść sesję, zapisuj postępy, oddawaj pracę podagentom. Większe okno bywa jak ciastka na biurku w trakcie odchudzania — im więcej miejsca, tym łatwiej o gorsze nawyki. A jeśli czujesz, że sesja zeszła na manowce, nie walcz z nią — otwórz nową i zacznij od czysta.