Przewodnik
Decyzje i porównania
Ile naprawdę kosztuje AI w produkcji: tokeny, inferencja, utrzymanie
Cena za token to ułamek rachunku. Realny koszt napędzają długość kontekstu, liczba wywołań, retrieval i utrzymanie. Liczy się koszt na jedno załatwione zadanie.
- Cennik za token to początek rachunku, nie cały koszt.
- Cztery główne nośniki kosztu: kontekst, liczba wywołań, retrieval, utrzymanie.
- Patrz na koszt jednego załatwionego zadania, nie na cenę pojedynczego zapytania.
Cennik za token to nie cały koszt
Najczęstszy błąd w szacowaniu kosztów AI to spojrzenie na cenę za token i pomnożenie jej przez liczbę zapytań. Wynik jest zwykle dużo niższy od rzeczywistego rachunku, bo pomija to, jak naprawdę działa system w produkcji.
Realny koszt napędzają cztery rzeczy: ile tekstu trzyma kontekst, ile razy wołasz model na jedno zadanie, co dokłada retrieval i ile kosztuje utrzymanie całości. Cena jednostkowa to dopiero pierwszy z tych czynników.
Cztery nośniki kosztu
Długość kontekstu. Płacisz za każdy token w oknie kontekstowym, nie tylko za pytanie użytkownika. Instrukcje systemowe, historia rozmowy i dołączone dokumenty potrafią być wielokrotnie dłuższe niż samo pytanie. Każde wywołanie niesie ten cały ogon.
Liczba wywołań. Jedno „zapytanie użytkownika” rzadko to jedno wywołanie modelu. Agent, który planuje, korzysta z narzędzi i sprawdza wynik, woła model kilka razy na jedno zadanie. Mnożnik bywa większy niż cena jednostkowa.
Retrieval. RAG dokłada dwa koszty: wyszukanie fragmentów w bazie wektorowej oraz tokeny tych fragmentów wstrzykniętych do kontekstu. Im więcej dokładasz dla jakości, tym dłuższy kontekst i wyższy rachunek za inferencję.
Utrzymanie. To pozycja, którą najłatwiej pominąć i która rośnie najdłużej: monitoring jakości, aktualizacja danych dla retrievalu, reagowanie na zmiany wersji modeli, poprawianie regresji. Inferencja jest widoczna na fakturze, ops bywa większy i ukryty.
Modelowy rachunek na jedno zadanie
Załóżmy zadanie obsługiwane przez agenta z retrievalem. Liczby są ilustracyjne — pokazują strukturę, nie cennik konkretnego dostawcy.
| Pozycja | Co składa się na koszt | Udział w rachunku |
|---|---|---|
| Kontekst (instrukcje + historia) | Stały ogon w każdym wywołaniu | Wysoki |
| Wywołania modelu na zadanie | Planowanie, narzędzia, weryfikacja | Wysoki |
| Retrieval (wyszukanie + tokeny) | Baza wektorowa + dołączone fragmenty | Średni |
| Inferencja samego pytania | To, co intuicyjnie liczymy | Niski |
| Utrzymanie (miesięcznie) | Monitoring, dane, regresje | Rośnie w czasie |
Zasada operatora: nie licz kosztu zapytania. Licz koszt jednego poprawnie załatwionego zadania — z wszystkimi wywołaniami, kontekstem i poprawkami, które do niego prowadzą.
Dlaczego tańszy model bywa droższy
Kuszące jest wybrać najtańszy model i obciąć rachunek. Ale model, który częściej się myli, generuje ukryty koszt: ponowne próby, poprawki, pracę człowieka nad błędami, czasem szkodę po stronie klienta. Tańsza inferencja na zapytanie potrafi dać wyższy koszt na załatwione zadanie. To jest właściwa jednostka rozliczenia.
Jak liczyć uczciwie
Dobre TCO składa trzy warstwy. Po pierwsze inferencja: cena za token razy realna długość kontekstu razy liczba wywołań na zadanie. Po drugie retrieval: koszt bazy wektorowej i dodatkowych tokenów. Po trzecie utrzymanie: stały miesięczny narzut na ops, który nie znika po wdrożeniu.
Zsumuj to i podziel przez liczbę poprawnie załatwionych zadań. Dopiero ta liczba pozwala porównywać warianty — modele, architektury, build vs buy — na jednej skali, zamiast porównywać same cenniki, które mówią o ułamku rzeczywistego kosztu.
Pojęcia w tym przewodniku
Powiązane artykuły
- Claude Fable 5 i Mythos 5 — co wypuścił Anthropic i dlaczego masz dwa tygodnie
- Jak oszczędzać tokeny w Claude — co warto wiedzieć o cache'owaniu
- Jak nie wyczerpywać limitu sesji w Claude — zarządzanie tokenami w praktyce
- Tani wykonawca, drogi doradca — jak dobierać model AI do zadania
Masz konkretny proces, transakcję albo wąskie gardło? Opisz swój przypadek.
Opisz swój przypadek Zobacz, jak pomagamyNajczęstsze pytania
- Dlaczego rachunek za AI jest wyższy, niż wynika z cennika?
- Bo cennik podaje cenę za token, a płacisz za wszystkie tokeny w kontekście — instrukcje, historię, dołączone dokumenty — pomnożone przez liczbę wywołań. Jedno „zapytanie użytkownika” to często kilka wywołań modelu.
- Czy tańszy model zawsze obniża koszt?
- Niekoniecznie. Tańszy model, który częściej się myli, generuje poprawki, ponowne próby i pracę człowieka. Liczy się koszt na poprawnie załatwione zadanie, a nie cena pojedynczego wywołania.
- Co kosztuje najwięcej w dłuższej perspektywie?
- Zwykle utrzymanie: monitoring jakości, aktualizacja danych dla retrievalu, reagowanie na zmiany modeli i poprawianie regresji. Inferencja jest widoczna, ops bywa większy i mniej widoczny.