To jest wersja do trzymania pod ręką. Otwierasz ją w trakcie pracy z Claude, gdy chcesz szybko sprawdzić, jak działa cache i czy bieżący ruch nie przepali limitu sesji. Cache'owanie dzieje się automatycznie — niczego nie włączasz; ta ściąga zbiera tylko te zasady, które decydują, jak szybko zbliżasz się do limitu.
Sedno jednym zdaniem: zapamiętany kontekst kosztuje 10% ceny świeżego wejścia, w subskrypcji żyje godzinę, a resetują go długa przerwa, zmiana instrukcji systemowych i zmiana modelu w trakcie.
Dwa pojęcia na start
| Pojęcie | Co to jest |
|---|---|
| Token | Fragment tekstu, którym operuje model — z grubsza kawałek słowa. Liczy się za wejście (co podajesz) i wyjście (co model zwraca). |
| Cache (pamięć podręczna) | Mechanizm, dzięki któremu Claude nie przetwarza od zera tego samego tekstu — instrukcji, plików, wcześniejszej rozmowy. Raz zapamiętany fragment przy kolejnym pytaniu jest po prostu odczytywany. |
Cena i czas życia cache'a
- Tokeny z cache'a kosztują 10% ceny zwykłego wejścia. Odczyt zapamiętanego kontekstu jest dziesięć razy tańszy od świeżego wejścia.
- Przykład z artykułu: jeśli w ciągu dnia przez model przechodzi 91 milionów tokenów, a większość jest odczytywana z cache'a, koszt wypada tak, jakbyś przetworzył około 9 milionów.
- Cache nie trzyma się wiecznie — ma czas życia (w dokumentacji Anthropic: TTL, time to live).
| Tryb | Czas życia cache'a (TTL) | Uwagi |
|---|---|---|
| Subskrypcja Claude (np. Claude Code w terminalu lub jako rozszerzenie) | 1 godzina | Brak wiadomości przez godzinę → cała sesja wypada z cache'a i jest przetwarzana od nowa. |
| Praca przez API | 5 minut | Okna nie da się skrócić; można je wydłużyć do godziny za dopłatą. |
| Agenci pomocniczy (sub-agents) | 5 minut | Niezależnie od planu. |
| Strona webowa (Claude.ai) | nieopisane jednoznacznie | Dokumentacja Anthropic nie precyzuje; rozsądnie zakładać podobnie jak w subskrypcji, ale brak pełnego potwierdzenia. |
Skąd dawniejsza dezorientacja: subskrypcja nie została po cichu skrócona z godziny do 5 minut — to nadal godzina. Nieporozumienie brało się z tego, że zasady dla API i dla Claude Code bywają opisane razem, choć to dwie różne rzeczy.
Trzy warstwy cache'a
Kontekst, który Claude zapamiętuje, dzieli się na trzy warstwy:
| Warstwa | Co obejmuje | Jak jest cache'owana |
|---|---|---|
| Systemowa | Podstawowe instrukcje, definicje narzędzi (czytanie i zapis plików, uruchamianie poleceń, wyszukiwanie), styl odpowiedzi | Globalnie |
| Projektu | Pliki typu CLAUDE.md, pamięć i reguły danego projektu | Osobno dla każdego projektu |
| Rozmowy | Twoje wiadomości i odpowiedzi modelu | Rośnie z każdą turą, dopisywana na bieżąco — i tak ma być |
Zapis a odczyt
- Zapis do cache'a (cache create) — jednorazowy koszt zapamiętania czegoś po raz pierwszy; zwraca się już przy następnej turze.
- Odczyt z cache'a (cache read) — ponowne użycie tego, co zapamiętane; właśnie to jest dziesięć razy tańsze od świeżego wejścia.
W pierwszej turze nic nie jest jeszcze zapamiętane — model przetwarza wszystko od zera i zapisuje do cache'a. W kolejnych turach (w oknie godziny) podstawa jest gotowa, więc dochodzi tylko świeży fragment, a reszta jest tanio odczytywana.
Co resetuje cache
Trzy rzeczy wyrzucają zapamiętany kontekst i każą przetwarzać go od zera:
| Zdarzenie | Szczegół |
|---|---|
| Przerwa dłuższa niż TTL | Ponad godzinę w subskrypcji; ponad 5 minut przy API i agentach pomocniczych |
| Zmiana instrukcji systemowych | Zmienia się to, na czym opiera się cała sesja |
| Zmiana modelu w trakcie | Każdy model ma własny cache; po przełączeniu kolejne zapytanie czyta całą rozmowę bez trafienia w cache, nawet przy identycznej treści |
Co nie resetuje cache'a:
- Edycja pliku
CLAUDE.mdw trakcie sesji — zmiana wchodzi w życie dopiero po ponownym uruchomieniu sesji, więc bieżący cache pozostaje nienaruszony.
Haczyk z przełączaniem modeli: ustawienie „Opus do planowania” (Opus w trybie planu, potem Sonnet do wykonania) bywa polecane jako sposób na oszczędzanie limitu. Każde takie przełączenie to jednak zmiana modelu — a więc reset cache'a i świeże przetwarzanie. Na dłuższą metę ustawienie i tak może oszczędzać limit, ale samo przełączanie nie jest darmowe.
Trzy nawyki
| Nawyk | Co robić | Jak |
|---|---|---|
| Żywa sesja | Nie rób zbyt długiej przerwy | Jeśli sesja stoi ponad godzinę, nie wracaj do niej — przekaż pracę do nowej. Powrót i tak oznacza ponowne przetworzenie całości. |
| Skupiona sesja → świeży start | Zaczynaj od czysta przy zmianie tematu | /clear czyści sesję; /compact streszcza ją i przy okazji resetuje cache. Alternatywa: „przekazanie sesji” — krótkie podsumowanie (co zrobione, jakie pliki powstały, gdzie wrócić), które kopiujesz do nowej, czystej sesji. |
| Duże dokumenty w projekcie | W czacie Claude obszerne materiały wrzucaj do projektu | Korzystając ze strony, zamiast wklejać duże materiały wprost do rozmowy, załóż projekt. Pliki w projekcie są cache'owane w sposób lepiej przystosowany do wielu dokumentów. (Obszar nieopisany wprost w dokumentacji — rozsądna wskazówka, nie twarda reguła.) |
Polecenia i pliki — szybkie odniesienie
| Element | Co robi |
|---|---|
/clear | Czyści sesję |
/compact | Streszcza sesję — i przy okazji resetuje cache |
CLAUDE.md | Plik warstwy projektu; edycja w trakcie sesji nie resetuje cache'a (działa po restarcie sesji) |
Od czego zacząć
Trzy nawyki pokrywają potrzeby zdecydowanej większości użytkowników. Jeśli masz wdrożyć tylko tyle, zacznij od tego:
- Trzymaj sesję żywą. Nie zostawiaj jej na dłużej niż godzinę (subskrypcja) — w razie czego przekaż pracę do nowej sesji.
- Rób świeży start przy zmianie zadania.
/clearalbo przekazanie sesji do nowej, czystej rozmowy. - Duże dokumenty wrzucaj do projektu, nie wprost do rozmowy.
Resztę niuansów cache'owania doczytaj dopiero wtedy, gdy faktycznie zacznie ci być potrzebna.