Kalkulator tokenów
Oblicz koszt korzystania z modeli językowych AI. Oszacuj tokeny z tekstu i porównaj ceny GPT-4, Claude, Gemini i innych modeli.
Czym jest kalkulator tokenów AI?
Jak obliczyć koszt tokenów AI?
Wzór na koszt tokenów AI
- = Całkowity koszt wywołania API (w USD, do przeliczenia na PLN)
- = Liczba tokenów wejściowych (prompt, system prompt i kontekst)
- = Liczba tokenów wyjściowych (wygenerowana odpowiedź modelu)
- = Cena za 1 milion tokenów wejściowych dla wybranego modelu
- = Cena za 1 milion tokenów wyjściowych dla wybranego modelu
Przykłady kosztów tokenów AI
Chatbot obsługi klienta polskiego sklepu internetowego: 30 000 rozmów miesięcznie
Analiza dokumentów prawnych w polskiej kancelarii
Asystent kodu dla zespołu 10 programistów w polskim startupie
Jak obniżyć koszty tokenów AI?
- Dobierz model do zadania. Używaj tanich modeli (GPT-5 Mini, GPT-4.1 mini, Gemini 2.5 Flash-Lite, Claude Haiku, DeepSeek V3.2, Grok 4.1 Fast, Amazon Nova Micro) do prostych zadań: klasyfikacja, ekstrakcja danych, podsumowania. Rezerwuj modele premium (GPT-5.4, GPT-4.1, Claude Sonnet/Opus, Gemini 2.5 Pro, Grok 4) dla zadań wymagających zaawansowanego rozumowania. Inteligentny routing modeli może obniżyć koszty o 40-60%.
- Włącz prompt caching dla powtarzalnego kontekstu. Jeśli twoja aplikacja wysyła ten sam system prompt z każdym zapytaniem, prompt caching redukuje koszty tokenów wejściowych nawet o 90%. OpenAI stosuje go automatycznie, Anthropic wymaga jawnych nagłówków cache_control.
- Korzystaj z Batch API dla zadań niekrytycznych czasowo. OpenAI i Anthropic oferują przetwarzanie wsadowe ze zniżką 50% na ceny tokenów. Raporty, analiza zbiorcza, przetwarzanie danych -- wszystko to można przetworzyć wsadowo i zaoszczędzić połowę kosztów.
- Skracaj prompty bezlitośnie. Każdy token w prompcie kosztuje. Usuń zbędne instrukcje, rozwlekłe system prompty i nadmiarowy kontekst. Średni niezoptymalizowany prompt zawiera 30-60% zbędnych tokenów.
- Ogranicz długość odpowiedzi. Ustaw parametr max_tokens, aby zapobiec generowaniu zbyt długich odpowiedzi. Jeśli potrzebujesz jednozdaniowej odpowiedzi, ogranicz output do 100 tokenów zamiast pozwalać modelowi pisać akapitami.
- Monitoruj zużycie i ustaw alerty. Używaj dashboardu dostawcy lub narzędzi jak Helicone czy Langfuse, aby śledzić zużycie tokenów per endpoint, per model i per użytkownik. Ustaw twarde limity wydatków, aby uniknąć niekontrolowanych kosztów przy błędach lub nagłym wzroście ruchu.
- Rozważ modele open-source dla zadań masowych. Samodzielnie hostowane modele jak Llama 4 (Meta), Mistral Small czy DeepSeek V3.2 nie mają kosztów per token. Hosting przez Groq lub Together AI oferuje Llama 4 i DeepSeek za 0,11-0,50 USD za milion tokenów -- wielokrotnie taniej niż komercyjne API.
Najczęściej zadawane pytania o tokeny AI i koszty API
Ile tokenów ma 1000 słów tekstu po polsku?
Około 1600-1800 tokenów. W porównaniu z angielskim (ok. 1333 tokenów na 1000 słów) tekst polski jest o 20-30% mniej efektywny tokenowo. Wynika to ze złożonej morfologii polszczyzny: odmiana przez przypadki (dom, domu, domowi, domem), złożone wyrazy i znaki diakrytyczne (ą, ę, ś, ć, ź, ż, ó, ń, ł) powodują, że tokenizery bazujące na BPE dzielą polskie słowa na więcej fragmentów. Planując budżet na API dla polskojęzycznych aplikacji, warto dodać 25% do szacunków opartych na angielskich proporcjach.
Dlaczego tokeny wyjściowe są droższe od wejściowych?
Tokeny wyjściowe kosztują 3-5 razy więcej z powodu fundamentalnej różnicy w obliczeniach. Tokeny wejściowe są przetwarzane równolegle w jednym przejściu przez model (encoding). Tokeny wyjściowe muszą być generowane sekwencyjnie -- każdy kolejny token wymaga osobnego przejścia (decoding), co jest znacznie bardziej zasobożerne obliczeniowo. Na przykład Claude Sonnet 4.6 pobiera 3 USD za milion tokenów wejściowych, ale 15 USD za milion wyjściowych -- stosunek 1:5.
Ile kosztuje jedno zapytanie do API GPT lub Claude?
Typowe zapytanie z 500 tokenami wejściowymi i 300 wyjściowymi kosztuje: z GPT-4.1 mini (0,40/1,60 USD za 1M) -- około 0,0007 USD (0,002 zł), z GPT-4.1 (2/8 USD za 1M) -- około 0,0034 USD (0,012 zł), z Claude Sonnet 4.6 (3/15 USD za 1M) -- około 0,006 USD (0,021 zł). Przy 1000 takich zapytań dziennie miesięczne koszty wyniosą odpowiednio: 21 zł (GPT-4.1 mini), 102 zł (GPT-4.1) lub 189 zł (Claude Sonnet 4.6).
Który model AI ma najlepszy stosunek ceny do jakości w 2026 roku?
To zależy od zastosowania. Najtańsze modele (wejście/wyjście za 1M tokenów): Amazon Nova Micro (0,035/0,14 USD), GPT-5 Nano (0,05/0,40 USD), Gemini 2.0 Flash-Lite (0,075/0,30 USD), Mistral Small (0,10/0,30 USD), GPT-4.1 Nano (0,10/0,40 USD), Llama 4 Scout przez Groq (0,11/0,34 USD). Klasa średnia: GPT-5 Mini (0,25/2,00 USD), Gemini 2.5 Flash (0,30/2,50 USD), GPT-4.1 Mini (0,40/1,60 USD), Claude Haiku 4.5 (1/5 USD), o4-mini (1,10/4,40 USD). Premium: GPT-4.1 (2/8 USD), Claude Sonnet 4.6 (3/15 USD), Grok 4 (3/15 USD), Claude Opus 4.6 (5/25 USD). Zasada: przetestuj kilka modeli na swoich danych i porównaj jakość z kosztem.
Czy polskie teksty są droższe w przetwarzaniu AI niż angielskie?
Tak, typowo o 20-30% droższe. Polskie teksty generują więcej tokenów niż równoważna treść w języku angielskim, ponieważ tokenizery BPE zostały wytrenowane głównie na anglojęzycznych korpusach. Długie wyrazy jak "ubezpieczenie" czy "przedsiębiorczość" są dzielone na 3-5 tokenów, podczas gdy ich angielskie odpowiedniki zajmują 2-3 tokeny. Polskie znaki diakrytyczne mogą być kodowane jako dodatkowe tokeny. Planując budżet na AI dla polskiego rynku, uwzględnij ten narzut.
Jak działa prompt caching i ile można zaoszczędzić?
Prompt caching zapisuje wektory klucz-wartość powtarzających się fragmentów promptu (np. system prompt), aby nie trzeba było ich przeliczać przy każdym zapytaniu. Buforowane tokeny są rozliczane po stawce 10-50% normalnej ceny wejściowej. Dla aplikacji wysyłających ten sam system prompt z każdym zapytaniem -- chatboty, asystenci kodu, przetwarzanie dokumentów -- prompt caching może obniżyć całkowite koszty wejściowe nawet o 90%. OpenAI stosuje caching automatycznie, Anthropic i Google wymagają jawnej konfiguracji.
Ile kosztuje przetworzenie dokumentu o 10 000 słów przez API?
Dokument o 10 000 słów po polsku to około 16 000-18 000 tokenów wejściowych (w angielskim byłoby to ok. 13 333). Z GPT-4.1 (2 USD za 1M wejściowych): koszt wejścia to ok. 0,034 USD (0,12 zł). Jeśli model wygeneruje streszczenie o 500 słowach (~800 tokenów wyjściowych przy 8 USD za 1M): koszt wyjścia to 0,006 USD (0,02 zł). Razem: ok. 0,04 USD (0,14 zł) za dokument. Przetworzenie 1000 takich dokumentów kosztuje ok. 140 zł. Z tańszym GPT-4.1 mini ta sama operacja kosztuje ok. 0,008 USD (0,03 zł) za dokument -- 5 razy mniej.
Jak porównać ceny wszystkich modeli AI w 2026 roku?
Pełne porównanie cen API (wejście/wyjście za 1M tokenów, stan na marzec 2026): Budżetowe: Amazon Nova Micro 0,035/0,14 USD | GPT-5 Nano 0,05/0,40 USD | Gemini 2.0 Flash-Lite 0,075/0,30 USD | Mistral Small 0,10/0,30 USD | GPT-4.1 Nano 0,10/0,40 USD | Llama 4 Scout (Groq) 0,11/0,34 USD | Grok 4.1 Fast 0,20/0,50 USD | DeepSeek V3.2 0,28/0,42 USD. Klasa średnia: GPT-5 Mini 0,25/2,00 USD | Gemini 2.5 Flash 0,30/2,50 USD | GPT-4.1 Mini 0,40/1,60 USD | Mistral Medium 3 0,40/2,00 USD | Claude Haiku 4.5 1/5 USD | o4-mini 1,10/4,40 USD. Premium: Gemini 2.5 Pro 1,25/10 USD | GPT-5 1,25/10 USD | GPT-4.1 2/8 USD | GPT-5.4 2,50/15 USD | Claude Sonnet 4.6 3/15 USD | Grok 4 3/15 USD | Claude Opus 4.6 5/25 USD. Wszystkie ceny w USD. Aby przeliczyć na PLN, mnóż przez ~3,50. Dodatkowo: Batch API daje 50% zniżki, prompt caching do 90% na tokeny wejściowe.
Słownik kluczowych pojęć
Token
Najmniejsza jednostka tekstu przetwarzana przez model AI. Token może być słowem, fragmentem wyrazu, znakiem lub symbolem interpunkcyjnym. Większość angielskich słów to 1-2 tokeny; polskie słowa to średnio 1,3-1,5 tokena.
Tokenizer (tokenizator)
Algorytm konwertujący surowy tekst na tokeny. Różne modele używają różnych tokenizerów: OpenAI stosuje tiktoken, Google -- SentencePiece, Anthropic -- własny tokenizer. Ten sam tekst może mieć różną liczbę tokenów u różnych dostawców.
BPE (Byte Pair Encoding)
Najpopularniejszy algorytm tokenizacji w nowoczesnych LLM. Buduje słownik tokenów, iteracyjnie łącząc najczęstsze pary znaków lub podsłów. Używany przez GPT, Claude, Llama i większość dużych modeli.
Okno kontekstowe (Context Window)
Maksymalna liczba tokenów, jaką model może przetworzyć w jednym zapytaniu (wejście + wyjście łącznie). GPT-4.1 obsługuje 1M tokenów, Claude Opus 4.6 do 1M, Grok 4.1 Fast do 2M, Gemini 2.5 Pro do 1M tokenów.
Prompt caching (buforowanie promptu)
Technika optymalizacji kosztów polegająca na zapisywaniu obliczonych wektorów klucz-wartość dla powtarzających się fragmentów promptu. Redukuje koszty tokenów wejściowych dla buforowanej części nawet o 90%.
Tokeny wejściowe i wyjściowe
Tokeny wejściowe (input) to tekst wysyłany do modelu: prompt, system prompt, kontekst. Tokeny wyjściowe (output) to tekst generowany przez model w odpowiedzi. Tokeny wyjściowe kosztują 3-5 razy więcej ze względu na sekwencyjne generowanie.
LLM (Large Language Model)
Duży model językowy wytrenowany na ogromnych zbiorach tekstu, zdolny do generowania tekstu przypominającego ludzki. Wiodące LLM w 2026 roku: GPT-5.4 (OpenAI), Claude Opus 4.6 (Anthropic), Gemini 2.5 Pro (Google), Grok 4 (xAI), Llama 4 (Meta), DeepSeek V3.2, Mistral Large.
