Dlaczego rachunek za AI jest wyższy, niż wynika z cennika?

Bo cennik podaje cenę za token, a płacisz za wszystkie tokeny w kontekście — instrukcje, historię, dołączone dokumenty — pomnożone przez liczbę wywołań. Jedno „zapytanie użytkownika” to często kilka wywołań modelu.

Czy tańszy model zawsze obniża koszt?

Niekoniecznie. Tańszy model, który częściej się myli, generuje poprawki, ponowne próby i pracę człowieka. Liczy się koszt na poprawnie załatwione zadanie, a nie cena pojedynczego wywołania.

Co kosztuje najwięcej w dłuższej perspektywie?

Zwykle utrzymanie: monitoring jakości, aktualizacja danych dla retrievalu, reagowanie na zmiany modeli i poprawianie regresji. Inferencja jest widoczna, ops bywa większy i mniej widoczny.

Przewodnik

Decyzje i porównania

Ile naprawdę kosztuje AI w produkcji: tokeny, inferencja, utrzymanie

Cena za token to ułamek rachunku. Realny koszt napędzają długość kontekstu, liczba wywołań, retrieval i utrzymanie. Liczy się koszt na jedno załatwione zadanie.

Cennik za token to początek rachunku, nie cały koszt.
Cztery główne nośniki kosztu: kontekst, liczba wywołań, retrieval, utrzymanie.
Patrz na koszt jednego załatwionego zadania, nie na cenę pojedynczego zapytania.

Cennik za token to nie cały koszt

Najczęstszy błąd w szacowaniu kosztów AI to spojrzenie na cenę za token i pomnożenie jej przez liczbę zapytań. Wynik jest zwykle dużo niższy od rzeczywistego rachunku, bo pomija to, jak naprawdę działa system w produkcji.

Realny koszt napędzają cztery rzeczy: ile tekstu trzyma kontekst, ile razy wołasz model na jedno zadanie, co dokłada retrieval i ile kosztuje utrzymanie całości. Cena jednostkowa to dopiero pierwszy z tych czynników.

Cztery nośniki kosztu

Długość kontekstu. Płacisz za każdy token w oknie kontekstowym, nie tylko za pytanie użytkownika. Instrukcje systemowe, historia rozmowy i dołączone dokumenty potrafią być wielokrotnie dłuższe niż samo pytanie. Każde wywołanie niesie ten cały ogon.

Liczba wywołań. Jedno „zapytanie użytkownika” rzadko to jedno wywołanie modelu. Agent, który planuje, korzysta z narzędzi i sprawdza wynik, woła model kilka razy na jedno zadanie. Mnożnik bywa większy niż cena jednostkowa.

Retrieval. RAG dokłada dwa koszty: wyszukanie fragmentów w bazie wektorowej oraz tokeny tych fragmentów wstrzykniętych do kontekstu. Im więcej dokładasz dla jakości, tym dłuższy kontekst i wyższy rachunek za inferencję.

Utrzymanie. To pozycja, którą najłatwiej pominąć i która rośnie najdłużej: monitoring jakości, aktualizacja danych dla retrievalu, reagowanie na zmiany wersji modeli, poprawianie regresji. Inferencja jest widoczna na fakturze, ops bywa większy i ukryty.

Modelowy rachunek na jedno zadanie

Załóżmy zadanie obsługiwane przez agenta z retrievalem. Liczby są ilustracyjne — pokazują strukturę, nie cennik konkretnego dostawcy.

Pozycja	Co składa się na koszt	Udział w rachunku
Kontekst (instrukcje + historia)	Stały ogon w każdym wywołaniu	Wysoki
Wywołania modelu na zadanie	Planowanie, narzędzia, weryfikacja	Wysoki
Retrieval (wyszukanie + tokeny)	Baza wektorowa + dołączone fragmenty	Średni
Inferencja samego pytania	To, co intuicyjnie liczymy	Niski
Utrzymanie (miesięcznie)	Monitoring, dane, regresje	Rośnie w czasie

Zasada operatora: nie licz kosztu zapytania. Licz koszt jednego poprawnie załatwionego zadania — z wszystkimi wywołaniami, kontekstem i poprawkami, które do niego prowadzą.

Dlaczego tańszy model bywa droższy

Kuszące jest wybrać najtańszy model i obciąć rachunek. Ale model, który częściej się myli, generuje ukryty koszt: ponowne próby, poprawki, pracę człowieka nad błędami, czasem szkodę po stronie klienta. Tańsza inferencja na zapytanie potrafi dać wyższy koszt na załatwione zadanie. To jest właściwa jednostka rozliczenia.

Jak liczyć uczciwie

Dobre TCO składa trzy warstwy. Po pierwsze inferencja: cena za token razy realna długość kontekstu razy liczba wywołań na zadanie. Po drugie retrieval: koszt bazy wektorowej i dodatkowych tokenów. Po trzecie utrzymanie: stały miesięczny narzut na ops, który nie znika po wdrożeniu.

Zsumuj to i podziel przez liczbę poprawnie załatwionych zadań. Dopiero ta liczba pozwala porównywać warianty — modele, architektury, build vs buy — na jednej skali, zamiast porównywać same cenniki, które mówią o ułamku rzeczywistego kosztu.

Pojęcia w tym przewodniku

Powiązane artykuły

Masz konkretny proces, transakcję albo wąskie gardło? Opisz swój przypadek.

Opisz swój przypadek Zobacz, jak pomagamy

Najczęstsze pytania

Dlaczego rachunek za AI jest wyższy, niż wynika z cennika?: Bo cennik podaje cenę za token, a płacisz za wszystkie tokeny w kontekście — instrukcje, historię, dołączone dokumenty — pomnożone przez liczbę wywołań. Jedno „zapytanie użytkownika” to często kilka wywołań modelu.
Czy tańszy model zawsze obniża koszt?: Niekoniecznie. Tańszy model, który częściej się myli, generuje poprawki, ponowne próby i pracę człowieka. Liczy się koszt na poprawnie załatwione zadanie, a nie cena pojedynczego wywołania.
Co kosztuje najwięcej w dłuższej perspektywie?: Zwykle utrzymanie: monitoring jakości, aktualizacja danych dla retrievalu, reagowanie na zmiany modeli i poprawianie regresji. Inferencja jest widoczna, ops bywa większy i mniej widoczny.