Praca z Claude Zasób

Oszczędzanie tokenów w Claude — ściąga

Jednostronicowa ściąga o cache'owaniu tokenów w Claude: ceny, czasy życia, co resetuje cache i trzy nawyki. Otwierasz ją przy pracy, gdy chcesz szybko sprawdzić, czy nie przepalasz limitu sesji.

To jest wersja do trzymania pod ręką. Otwierasz ją w trakcie pracy z Claude, gdy chcesz szybko sprawdzić, jak działa cache i czy bieżący ruch nie przepali limitu sesji. Cache'owanie dzieje się automatycznie — niczego nie włączasz; ta ściąga zbiera tylko te zasady, które decydują, jak szybko zbliżasz się do limitu.

Sedno jednym zdaniem: zapamiętany kontekst kosztuje 10% ceny świeżego wejścia, w subskrypcji żyje godzinę, a resetują go długa przerwa, zmiana instrukcji systemowych i zmiana modelu w trakcie.

Dwa pojęcia na start

PojęcieCo to jest
TokenFragment tekstu, którym operuje model — z grubsza kawałek słowa. Liczy się za wejście (co podajesz) i wyjście (co model zwraca).
Cache (pamięć podręczna)Mechanizm, dzięki któremu Claude nie przetwarza od zera tego samego tekstu — instrukcji, plików, wcześniejszej rozmowy. Raz zapamiętany fragment przy kolejnym pytaniu jest po prostu odczytywany.

Cena i czas życia cache'a

  • Tokeny z cache'a kosztują 10% ceny zwykłego wejścia. Odczyt zapamiętanego kontekstu jest dziesięć razy tańszy od świeżego wejścia.
  • Przykład z artykułu: jeśli w ciągu dnia przez model przechodzi 91 milionów tokenów, a większość jest odczytywana z cache'a, koszt wypada tak, jakbyś przetworzył około 9 milionów.
  • Cache nie trzyma się wiecznie — ma czas życia (w dokumentacji Anthropic: TTL, time to live).
TrybCzas życia cache'a (TTL)Uwagi
Subskrypcja Claude (np. Claude Code w terminalu lub jako rozszerzenie)1 godzinaBrak wiadomości przez godzinę → cała sesja wypada z cache'a i jest przetwarzana od nowa.
Praca przez API5 minutOkna nie da się skrócić; można je wydłużyć do godziny za dopłatą.
Agenci pomocniczy (sub-agents)5 minutNiezależnie od planu.
Strona webowa (Claude.ai)nieopisane jednoznacznieDokumentacja Anthropic nie precyzuje; rozsądnie zakładać podobnie jak w subskrypcji, ale brak pełnego potwierdzenia.

Skąd dawniejsza dezorientacja: subskrypcja nie została po cichu skrócona z godziny do 5 minut — to nadal godzina. Nieporozumienie brało się z tego, że zasady dla API i dla Claude Code bywają opisane razem, choć to dwie różne rzeczy.

Trzy warstwy cache'a

Kontekst, który Claude zapamiętuje, dzieli się na trzy warstwy:

WarstwaCo obejmujeJak jest cache'owana
SystemowaPodstawowe instrukcje, definicje narzędzi (czytanie i zapis plików, uruchamianie poleceń, wyszukiwanie), styl odpowiedziGlobalnie
ProjektuPliki typu CLAUDE.md, pamięć i reguły danego projektuOsobno dla każdego projektu
RozmowyTwoje wiadomości i odpowiedzi modeluRośnie z każdą turą, dopisywana na bieżąco — i tak ma być

Zapis a odczyt

  • Zapis do cache'a (cache create) — jednorazowy koszt zapamiętania czegoś po raz pierwszy; zwraca się już przy następnej turze.
  • Odczyt z cache'a (cache read) — ponowne użycie tego, co zapamiętane; właśnie to jest dziesięć razy tańsze od świeżego wejścia.

W pierwszej turze nic nie jest jeszcze zapamiętane — model przetwarza wszystko od zera i zapisuje do cache'a. W kolejnych turach (w oknie godziny) podstawa jest gotowa, więc dochodzi tylko świeży fragment, a reszta jest tanio odczytywana.

Co resetuje cache

Trzy rzeczy wyrzucają zapamiętany kontekst i każą przetwarzać go od zera:

ZdarzenieSzczegół
Przerwa dłuższa niż TTLPonad godzinę w subskrypcji; ponad 5 minut przy API i agentach pomocniczych
Zmiana instrukcji systemowychZmienia się to, na czym opiera się cała sesja
Zmiana modelu w trakcieKażdy model ma własny cache; po przełączeniu kolejne zapytanie czyta całą rozmowę bez trafienia w cache, nawet przy identycznej treści

Co nie resetuje cache'a:

  • Edycja pliku CLAUDE.md w trakcie sesji — zmiana wchodzi w życie dopiero po ponownym uruchomieniu sesji, więc bieżący cache pozostaje nienaruszony.

Haczyk z przełączaniem modeli: ustawienie „Opus do planowania” (Opus w trybie planu, potem Sonnet do wykonania) bywa polecane jako sposób na oszczędzanie limitu. Każde takie przełączenie to jednak zmiana modelu — a więc reset cache'a i świeże przetwarzanie. Na dłuższą metę ustawienie i tak może oszczędzać limit, ale samo przełączanie nie jest darmowe.

Trzy nawyki

NawykCo robićJak
Żywa sesjaNie rób zbyt długiej przerwyJeśli sesja stoi ponad godzinę, nie wracaj do niej — przekaż pracę do nowej. Powrót i tak oznacza ponowne przetworzenie całości.
Skupiona sesja → świeży startZaczynaj od czysta przy zmianie tematu/clear czyści sesję; /compact streszcza ją i przy okazji resetuje cache. Alternatywa: „przekazanie sesji” — krótkie podsumowanie (co zrobione, jakie pliki powstały, gdzie wrócić), które kopiujesz do nowej, czystej sesji.
Duże dokumenty w projekcieW czacie Claude obszerne materiały wrzucaj do projektuKorzystając ze strony, zamiast wklejać duże materiały wprost do rozmowy, załóż projekt. Pliki w projekcie są cache'owane w sposób lepiej przystosowany do wielu dokumentów. (Obszar nieopisany wprost w dokumentacji — rozsądna wskazówka, nie twarda reguła.)

Polecenia i pliki — szybkie odniesienie

ElementCo robi
/clearCzyści sesję
/compactStreszcza sesję — i przy okazji resetuje cache
CLAUDE.mdPlik warstwy projektu; edycja w trakcie sesji nie resetuje cache'a (działa po restarcie sesji)

Od czego zacząć

Trzy nawyki pokrywają potrzeby zdecydowanej większości użytkowników. Jeśli masz wdrożyć tylko tyle, zacznij od tego:

  1. Trzymaj sesję żywą. Nie zostawiaj jej na dłużej niż godzinę (subskrypcja) — w razie czego przekaż pracę do nowej sesji.
  2. Rób świeży start przy zmianie zadania. /clear albo przekazanie sesji do nowej, czystej rozmowy.
  3. Duże dokumenty wrzucaj do projektu, nie wprost do rozmowy.

Resztę niuansów cache'owania doczytaj dopiero wtedy, gdy faktycznie zacznie ci być potrzebna.