Limit sesji w Claude — ściąga · Zasób

To jest wersja do trzymania pod ręką. Otwierasz ją w trakcie pracy z Claude, gdy chcesz szybko sprawdzić, jaka komenda odciąży limit sesji albo co zrobić po ostatniej odpowiedzi. Nic ponad to, co opisuje artykuł źródłowy — same komendy, progi i nawyki, bez nowych liczb.

Zasada przewodnia jednym zdaniem: limit sesji wyczerpuje głównie powtórne czytanie rozmowy, więc tnij historię, a nie tylko pojedyncze wiadomości.

Pojęcia w skrócie

Pojęcie	Co znaczy
Token	najmniejszy fragment tekstu, który model czyta i za który nalicza opłatę (z grubsza kawałek słowa)
Sesja	pojedyncza, ciągła rozmowa z modelem
Limit sesji	pułap zużycia, po którym czekasz na reset, zanim popracujesz dalej
Model	sam silnik AI, który odpowiada (np. Claude w różnych wersjach)
Okno kontekstu	ilość tekstu, jaką model „widzi” naraz: instrukcje systemowe, cała rozmowa, wywołania narzędzi i ich wyniki, przeczytane pliki — bieżąca pamięć robocza
Claude Code	narzędzie, w którym Claude pracuje przy zadaniach programistycznych i operacyjnych; okno kontekstu rzędu miliona tokenów

Skąd biorą się koszty

Model przy każdej wiadomości czyta rozmowę od początku. Pytanie pierwsze, odpowiedź, pytanie drugie, odpowiedź — i tak za każdym razem aż do ostatniego polecenia. Dlatego koszt nie dodaje się, lecz narasta lawinowo.
Powtórne czytanie historii pochłania większość budżetu. W prześledzonej rozmowie liczącej ponad sto wiadomości 98,5% wszystkich tokenów poszło wyłącznie na ponowne czytanie wcześniejszej historii.
Część okna jest zajęta, zanim cokolwiek wpiszesz. Plik z instrukcjami projektu, podłączone narzędzia i umiejętności ładują się na starcie. Typowy narzut to około 8 tysięcy tokenów, ale potrafi sięgnąć 62 tysięcy na świeżej sesji.
Gnijący kontekst (context rot). Im dłuższa sesja, tym gorsza jakość — uwaga modelu rozkłada się na coraz więcej tokenów, model gubi wątek i edytuje pliki bez ich przeczytania. Trafność wyszukiwania w oknie spada z 92% przy 256 tysiącach tokenów do 78% przy milionie.

Pięć opcji po każdej odpowiedzi

To, co możesz zrobić, gdy model skończy odpowiadać.

Opcja	Co robi	Jak wywołać
Kontynuuj	piszesz kolejną wiadomość; historia rośnie dalej	po prostu nowa wiadomość
Cofnij	wracasz do wcześniejszej wiadomości i kasujesz wszystko po niej	`/rewind`
Wyczyść	zaczynasz całkiem od nowa	`/clear`
Skompaktuj	streszczasz sesję i zastępujesz historię tym streszczeniem	`/compact`
Oddeleguj	zlecasz zadanie podagentowi: świeże okno kontekstu, wraca sam wynik	„uruchom podagenta, żeby to zweryfikował”

Najważniejszy nawyk to /rewind. Gdy model zrobi coś źle, większość z nas pisze „to nie zadziałało, spróbuj inaczej” — ale nieudana próba i błędny kod zostają w kontekście i są odczytywane przy każdej kolejnej wiadomości. /rewind cofa do punktu sprzed błędu i zostawia czysty kontekst.

Czyszczenie, kompaktowanie i podsumowania

- Nowe zadanie → /clear. Zaczynasz coś innego, zaczynasz od zera. - To samo zadanie → /compact. Kompaktowanie to zwijanie dotychczasowej rozmowy w streszczenie. - Uwaga na auto-kompaktowanie. Claude Code uruchamia je samo dopiero przy około 95% zapełnienia okna — za późno. Zostaje wtedy raptem 20–30% pierwotnych szczegółów, a streszczenie powstaje u szczytu gnijącego kontekstu. - Wariant ręczny (zwykle najmocniej odciąża limit). Zanim dojdziesz do granicy: 1. poproś model o pełne podsumowanie — co zrobione i co dalej; 2. zrób /clear; 3. wklej streszczenie z powrotem i pracuj na świeżej sesji. - Warunek wariantu ręcznego: skoro tracisz historię rozmowy, zapisuj ustalenia gdzie indziej — w plikach z planem, dziennikach decyzji, listach zadań.

Podagenci

Czym jest podagent. Osobny pomocnik z własnym, świeżym oknem kontekstu: wykonuje zadanie i odsyła do głównej sesji sam wynik. Żmudna robota dzieje się poza twoim oknem, więc nie zaśmieca głównej rozmowy.
Jak zlecić. Wprost: „uruchom podagenta, żeby to zweryfikował”.
Tańszy model. Podagent może korzystać z tańszego modelu, co dodatkowo obniża koszt przy zbliżonej jakości.
Czego się nauczyć. Wyczuwać, które zadania nadają się do oddelegowania.

Mniej tokenów u źródła

Chwyty, które zmniejszają zużycie, zanim zacznie się rozmowa.

Chwyt	Co daje
Zamieniaj pliki na markdown	konwersja z HTML obcina około 90% tokenów, z PDF mniej więcej 65–70%, z docx około 33%. Wyjątek: skany wymagające rozpoznawania tekstu z obrazu — tam reguła nie działa
Pilnuj pliku z instrukcjami	`claude.md` ładuje się przy każdej sesji; trzymaj go poniżej około 200 wierszy (mniej więcej 2 tysiące tokenów), resztę przenieś do umiejętności i plików doczytywanych na żądanie
Zacznij od planu	plan przed budowaniem zużywa tokeny z góry, ale oszczędza je później — model rzadziej brnie w ślepą uliczkę
Obserwuj wskaźnik limitu	podgląd, ile sesji zostało, zmienia decyzje: wysłać polecenie teraz czy uruchomić zespół agentów

Sprawdzenie startu sesji: w Claude Code polecenie /context pokazuje, ile okna masz zajęte, zanim w ogóle zaczniesz pisać.

Dlaczego nie warto zapełniać całego okna

Większe okno to nie lepszy wynik, tylko więcej miejsca na gnijący kontekst. Reguły działania modeli się nie zmieniają.
Liczby z analizy 18 tysięcy bloków myślenia z 7 tysięcy sesji: głębia rozumowania spadała o 67% wraz z długością sesji, a edycja plików bez ich przeczytania rosła z 6% do 34%.
Skrajny przypadek: jeden użytkownik wskutek złych nawyków podniósł rachunek za tokeny z 345 dolarów do 42 tysięcy dolarów miesięcznie, a jakość pracy została płaska.
Produktywne są pierwsze kilkanaście–dwadzieścia procent sesji, gdy model jest najświeższy.
Gdy sesja zeszła na manowce — nie walcz z nią. Otwórz nową i zacznij od czysta.

Od czego zacząć

Wyrób odruch /rewind zamiast „spróbuj inaczej” — to nawyk, który artykuł zaleca najmocniej.
Dziel pracę komendami: nowe zadanie → /clear, to samo zadanie → /compact.
Stosuj wariant ręczny przed granicą: podsumowanie → /clear → wklejone streszczenie, a ustalenia zapisuj w plikach.
Oddawaj żmudną robotę podagentom, najlepiej na tańszym modelu.
Jeśli dopiero zaczynasz, zostań przy mniejszym, dwustutysięcznym oknie i wyrób dyscyplinę: czyść sesję, zapisuj postępy, deleguj.