Oszczędzanie tokenów w Claude — ściąga · Zasób

To jest wersja do trzymania pod ręką. Otwierasz ją w trakcie pracy z Claude, gdy chcesz szybko sprawdzić, jak działa cache i czy bieżący ruch nie przepali limitu sesji. Cache'owanie dzieje się automatycznie — niczego nie włączasz; ta ściąga zbiera tylko te zasady, które decydują, jak szybko zbliżasz się do limitu.

Sedno jednym zdaniem: zapamiętany kontekst kosztuje 10% ceny świeżego wejścia, w subskrypcji żyje godzinę, a resetują go długa przerwa, zmiana instrukcji systemowych i zmiana modelu w trakcie.

Dwa pojęcia na start

Pojęcie	Co to jest
Token	Fragment tekstu, którym operuje model — z grubsza kawałek słowa. Liczy się za wejście (co podajesz) i wyjście (co model zwraca).
Cache (pamięć podręczna)	Mechanizm, dzięki któremu Claude nie przetwarza od zera tego samego tekstu — instrukcji, plików, wcześniejszej rozmowy. Raz zapamiętany fragment przy kolejnym pytaniu jest po prostu odczytywany.

Cena i czas życia cache'a

Tokeny z cache'a kosztują 10% ceny zwykłego wejścia. Odczyt zapamiętanego kontekstu jest dziesięć razy tańszy od świeżego wejścia.
Przykład z artykułu: jeśli w ciągu dnia przez model przechodzi 91 milionów tokenów, a większość jest odczytywana z cache'a, koszt wypada tak, jakbyś przetworzył około 9 milionów.
Cache nie trzyma się wiecznie — ma czas życia (w dokumentacji Anthropic: TTL, time to live).

Tryb	Czas życia cache'a (TTL)	Uwagi
Subskrypcja Claude (np. Claude Code w terminalu lub jako rozszerzenie)	1 godzina	Brak wiadomości przez godzinę → cała sesja wypada z cache'a i jest przetwarzana od nowa.
Praca przez API	5 minut	Okna nie da się skrócić; można je wydłużyć do godziny za dopłatą.
Agenci pomocniczy (sub-agents)	5 minut	Niezależnie od planu.
Strona webowa (Claude.ai)	nieopisane jednoznacznie	Dokumentacja Anthropic nie precyzuje; rozsądnie zakładać podobnie jak w subskrypcji, ale brak pełnego potwierdzenia.

Skąd dawniejsza dezorientacja: subskrypcja nie została po cichu skrócona z godziny do 5 minut — to nadal godzina. Nieporozumienie brało się z tego, że zasady dla API i dla Claude Code bywają opisane razem, choć to dwie różne rzeczy.

Trzy warstwy cache'a

Kontekst, który Claude zapamiętuje, dzieli się na trzy warstwy:

Warstwa	Co obejmuje	Jak jest cache'owana
Systemowa	Podstawowe instrukcje, definicje narzędzi (czytanie i zapis plików, uruchamianie poleceń, wyszukiwanie), styl odpowiedzi	Globalnie
Projektu	Pliki typu `CLAUDE.md`, pamięć i reguły danego projektu	Osobno dla każdego projektu
Rozmowy	Twoje wiadomości i odpowiedzi modelu	Rośnie z każdą turą, dopisywana na bieżąco — i tak ma być

Zapis a odczyt

Zapis do cache'a (cache create) — jednorazowy koszt zapamiętania czegoś po raz pierwszy; zwraca się już przy następnej turze.
Odczyt z cache'a (cache read) — ponowne użycie tego, co zapamiętane; właśnie to jest dziesięć razy tańsze od świeżego wejścia.

W pierwszej turze nic nie jest jeszcze zapamiętane — model przetwarza wszystko od zera i zapisuje do cache'a. W kolejnych turach (w oknie godziny) podstawa jest gotowa, więc dochodzi tylko świeży fragment, a reszta jest tanio odczytywana.

Co resetuje cache

Trzy rzeczy wyrzucają zapamiętany kontekst i każą przetwarzać go od zera:

Zdarzenie	Szczegół
Przerwa dłuższa niż TTL	Ponad godzinę w subskrypcji; ponad 5 minut przy API i agentach pomocniczych
Zmiana instrukcji systemowych	Zmienia się to, na czym opiera się cała sesja
Zmiana modelu w trakcie	Każdy model ma własny cache; po przełączeniu kolejne zapytanie czyta całą rozmowę bez trafienia w cache, nawet przy identycznej treści

Co nie resetuje cache'a:

Edycja pliku CLAUDE.md w trakcie sesji — zmiana wchodzi w życie dopiero po ponownym uruchomieniu sesji, więc bieżący cache pozostaje nienaruszony.

Haczyk z przełączaniem modeli: ustawienie „Opus do planowania” (Opus w trybie planu, potem Sonnet do wykonania) bywa polecane jako sposób na oszczędzanie limitu. Każde takie przełączenie to jednak zmiana modelu — a więc reset cache'a i świeże przetwarzanie. Na dłuższą metę ustawienie i tak może oszczędzać limit, ale samo przełączanie nie jest darmowe.

Trzy nawyki

Nawyk	Co robić	Jak
Żywa sesja	Nie rób zbyt długiej przerwy	Jeśli sesja stoi ponad godzinę, nie wracaj do niej — przekaż pracę do nowej. Powrót i tak oznacza ponowne przetworzenie całości.
Skupiona sesja → świeży start	Zaczynaj od czysta przy zmianie tematu	`/clear` czyści sesję; `/compact` streszcza ją i przy okazji resetuje cache. Alternatywa: „przekazanie sesji” — krótkie podsumowanie (co zrobione, jakie pliki powstały, gdzie wrócić), które kopiujesz do nowej, czystej sesji.
Duże dokumenty w projekcie	W czacie Claude obszerne materiały wrzucaj do projektu	Korzystając ze strony, zamiast wklejać duże materiały wprost do rozmowy, załóż projekt. Pliki w projekcie są cache'owane w sposób lepiej przystosowany do wielu dokumentów. (Obszar nieopisany wprost w dokumentacji — rozsądna wskazówka, nie twarda reguła.)

Polecenia i pliki — szybkie odniesienie

Element	Co robi
`/clear`	Czyści sesję
`/compact`	Streszcza sesję — i przy okazji resetuje cache
`CLAUDE.md`	Plik warstwy projektu; edycja w trakcie sesji nie resetuje cache'a (działa po restarcie sesji)

Od czego zacząć

Trzy nawyki pokrywają potrzeby zdecydowanej większości użytkowników. Jeśli masz wdrożyć tylko tyle, zacznij od tego:

Trzymaj sesję żywą. Nie zostawiaj jej na dłużej niż godzinę (subskrypcja) — w razie czego przekaż pracę do nowej sesji.
Rób świeży start przy zmianie zadania. /clear albo przekazanie sesji do nowej, czystej rozmowy.
Duże dokumenty wrzucaj do projektu, nie wprost do rozmowy.

Resztę niuansów cache'owania doczytaj dopiero wtedy, gdy faktycznie zacznie ci być potrzebna.