Smart Calculators

Smart

Calculators

Token-Rechner

Berechnen Sie die Kosten für die Nutzung von KI-Sprachmodellen. Schätzen Sie Tokens aus Text und vergleichen Sie Preise zwischen Modellen wie GPT-4, Claude und Gemini.

Token-Rechner. KI-Token-Anzahl und API-Kostenberechnung für LLM-Modelle.
Ein Token-Rechner schätzt die Anzahl der Tokens in einem Text und berechnet die API-Kosten für Modelle wie GPT, Claude, Gemini, Grok und DeepSeek. Er wandelt die Textlänge anhand des Standardverhältnisses von etwa 1 Token pro 4 Zeichen in Tokens um und wendet die Preise pro Million Tokens jedes Modells an, um Ihnen die Eingabe- und Ausgabekosten sofort anzuzeigen.

Was sind Tokens bei KI-Sprachmodellen?

Tokens sind die kleinsten Verarbeitungseinheiten, die KI-Sprachmodelle wie GPT, Claude, Gemini, Grok, DeepSeek, Mistral und Llama verwenden, um Text zu verstehen und zu erzeugen. Ein Token ist keine feste Einheit -- es kann ein ganzes Wort, ein Wortteil, ein einzelnes Zeichen oder sogar ein Satzzeichen sein. Im Englischen entspricht ein Token im Durchschnitt etwa 4 Zeichen oder 0,75 Wörtern; im Deutschen liegt das Verhältnis wegen der typischen Komposita (zusammengesetzten Wörter) oft höher.
Die API-Kosten aller großen KI-Anbieter -- OpenAI (GPT), Anthropic (Claude), Google (Gemini), xAI (Grok), DeepSeek, Mistral AI und Meta (Llama) -- werden pro Token abgerechnet, nicht pro Wort oder Zeichen. Dabei unterscheidet man zwischen Input-Tokens (der Text, den Sie an das Modell senden) und Output-Tokens (die Antwort des Modells). Output-Tokens sind in der Regel 3- bis 8-mal teurer als Input-Tokens.
Für Entwickler, Unternehmen und KI-Anwender im DACH-Raum ist das Verständnis von Tokens entscheidend, um API-Kosten zu planen und zu optimieren. Unser Token-Rechner hilft Ihnen, die Token-Anzahl eines Textes zu ermitteln und die Kosten über verschiedene Modelle hinweg sofort zu vergleichen.

Wie berechnet man KI-Token und API-Kosten?

Um die Kosten eines API-Aufrufs zu berechnen, benötigen Sie drei Informationen: die Anzahl der Input-Tokens, die Anzahl der Output-Tokens und den Preis pro Token des gewählten Modells.
Schritt-für-Schritt-Anleitung:
1. Ermitteln Sie die Token-Anzahl Ihres Eingabetextes. Unser Rechner nutzt dafür den BPE-Tokenizer (Byte Pair Encoding), den auch GPT und Claude verwenden. Die Faustregel für Deutsch: 1 Wort ergibt durchschnittlich 1,3 bis 1,5 Tokens.
2. Schätzen Sie die erwarteten Output-Tokens. Eine kurze Antwort hat typischerweise 50-150 Tokens, eine ausführliche Erklärung 500-1.500 Tokens.
3. Multiplizieren Sie die Input-Tokens mit dem Input-Preis und die Output-Tokens mit dem Output-Preis des gewählten Modells.
4. Addieren Sie beide Werte, um die Gesamtkosten pro Anfrage zu erhalten.
Beispiel: Sie senden einen Prompt mit 800 Input-Tokens an GPT-4o ($2,50 pro 1 Mio. Input-Tokens) und erhalten eine Antwort mit 400 Output-Tokens ($10,00 pro 1 Mio. Output-Tokens). Die Kosten betragen: (800 × 0,0000025) + (400 × 0,00001) = 0,002 + 0,004 = $0,006 pro Anfrage -- umgerechnet etwa 0,0055 EUR.
Bei 10.000 solchen Anfragen pro Monat lägen die Kosten bei rund 55 EUR. Unser Rechner führt diese Berechnung automatisch durch und vergleicht die Ergebnisse über alle gängigen Modelle hinweg.

Formel zur Berechnung der Token-Kosten

K=TInput×PInput+TOutput×POutput1.000.000K = \frac{T_{\text{Input}} \times P_{\text{Input}} + T_{\text{Output}} \times P_{\text{Output}}}{1.000.000}
  • KK = Gesamtkosten pro API-Aufruf (in USD oder EUR)
  • TInputT_{\text{Input}} = Anzahl der Input-Tokens (Ihr Prompt, System-Prompt und Kontext)
  • TOutputT_{\text{Output}} = Anzahl der Output-Tokens (die generierte Antwort des Modells)
  • PInputP_{\text{Input}} = Preis pro 1 Million Input-Tokens (modellabhängig)
  • POutputP_{\text{Output}} = Preis pro 1 Million Output-Tokens (modellabhängig)
Für die Berechnung der monatlichen Gesamtkosten erweitern Sie die Formel um die Anzahl der Anfragen:
KMonat=N×TInput×PInput+TOutput×POutput1.000.000K_{\text{Monat}} = N \times \frac{T_{\text{Input}} \times P_{\text{Input}} + T_{\text{Output}} \times P_{\text{Output}}}{1.000.000}
Dabei ist N die Anzahl der API-Aufrufe pro Monat. Beachten Sie, dass viele Anbieter zusätzlich Rabatte für Batch-Verarbeitung (bis zu 50 % Ersparnis) und Prompt-Caching (bis zu 90 % Ersparnis auf wiederholte Eingaben) anbieten, die die effektiven Kosten erheblich senken können.

Praxisbeispiele: Token-Kosten für typische Anwendungsfälle

Kundenservice-Chatbot für einen deutschen Online-Shop

Ein mittelständischer Online-Händler betreibt einen KI-Chatbot für den Kundensupport. Jede Kundenanfrage umfasst durchschnittlich 150 Input-Tokens (Frage + Kontextdaten), und die Antwort enthält etwa 300 Output-Tokens. Bei 5.000 Anfragen pro Monat mit Claude Sonnet 4.6 ($3 / $15 pro 1 Mio. Tokens) betragen die Kosten: (5.000 × 150 × 3 + 5.000 × 300 × 15) / 1.000.000 = 2,25 + 22,50 = $24,75 -- umgerechnet rund 23 EUR pro Monat. Mit GPT-4o Mini ($0,15 / $0,60 pro 1 Mio.) sinken die Kosten auf nur 0,11 + 0,90 = etwa 0,93 EUR -- allerdings bei niedrigerer Antwortqualität.

Dokumentenanalyse in einer Kanzlei

Eine Anwaltskanzlei analysiert mit KI täglich 20 Verträge (je ~3.000 Tokens) und lässt Zusammenfassungen erstellen (je ~800 Output-Tokens). Pro Monat (22 Arbeitstage) ergibt das: 440 Anfragen × (3.000 Input + 800 Output). Mit GPT-4o ($2,50 / $10,00 pro 1 Mio.): Input-Kosten = 440 × 3.000 × 2,50 / 1.000.000 = 3,30 EUR. Output-Kosten = 440 × 800 × 10,00 / 1.000.000 = 3,52 EUR. Gesamt: rund 6,30 EUR pro Monat. Die KI spart der Kanzlei Stunden an manueller Arbeit für weniger als 7 EUR monatlich.

Content-Erstellung für ein SaaS-Startup

Ein Berliner SaaS-Startup nutzt KI, um wöchentlich 10 Blogartikel (je ~2.000 Output-Tokens) zu generieren. Der Prompt mit Briefing und Styleguide umfasst jeweils ~1.500 Input-Tokens. Bei 40 Artikeln pro Monat mit Claude Opus 4.6 ($15 / $75 pro 1 Mio.): Input = 40 × 1.500 × 15 / 1.000.000 = 0,90 EUR. Output = 40 × 2.000 × 75 / 1.000.000 = 6,00 EUR. Gesamt: rund 6,90 EUR. Wählt das Startup stattdessen Gemini 2.5 Flash ($0,15 / $0,60 pro 1 Mio.), sinken die Kosten auf unter 0,06 EUR -- ein Faktor von über 100.

Tipps zur Senkung Ihrer KI-Token-Kosten

  • Wählen Sie das richtige Modell für die Aufgabe. Nicht jede Anfrage braucht das teuerste Modell. Verwenden Sie Budget-Modelle wie GPT-4.1 mini, Gemini 2.5 Flash-Lite, Claude Haiku, DeepSeek V3.2, Grok 4.1 Fast oder Amazon Nova Micro für einfache Klassifikationen und Zusammenfassungen, und reservieren Sie Premium-Modelle wie GPT-5.4, GPT-4.1, Claude Sonnet/Opus, Gemini 2.5 Pro, Grok 4 oder Mistral Large für komplexe Reasoning-Aufgaben. Auch Open-Source-Modelle wie Llama 4 (Meta), Mistral Small, DeepSeek V3.2 über günstige Hosting-Anbieter wie Groq ($0,11-$0,50/1M Tokens) sind eine starke Alternative. Ein intelligenter Modell-Mix kann bis zu 80 % Kosten einsparen.
  • Halten Sie Prompts kurz und präzise. Jedes überflüssige Wort im Prompt kostet Tokens. Formulieren Sie klare Anweisungen und vermeiden Sie redundanten Kontext. Fordern Sie explizit kurze Antworten an, zum Beispiel: 'Antworte in maximal 3 Sätzen' oder 'Nur den geänderten Code, keine Erklärung'.
  • Nutzen Sie Prompt-Caching. Wenn Ihr System-Prompt bei jeder Anfrage identisch ist, bieten Anbieter wie Anthropic und OpenAI Caching an, das bis zu 90 % der Input-Kosten für den gecachten Teil spart.
  • Setzen Sie Batch-Verarbeitung ein. Wenn Ihre Anfragen nicht zeitkritisch sind, können Sie über Batch-APIs bis zu 50 % gegenüber Einzelanfragen sparen.
  • Begrenzen Sie die Ausgabelänge. Setzen Sie den Parameter max_tokens auf den tatsächlich benötigten Wert. Ein unbegrenztes Modell erzeugt oft längere Antworten als nötig -- und jedes zusätzliche Output-Token kostet 3- bis 8-mal mehr als ein Input-Token.
  • Komprimieren Sie den Kontext bei Chat-Verläufen. Statt den gesamten Chatverlauf mitzusenden, fassen Sie ältere Nachrichten zusammen. Das reduziert die Input-Tokens drastisch bei langen Konversationen.

Häufig gestellte Fragen zu KI-Tokens und Kosten

Wie viele Tokens hat ein deutsches Wort?

Ein deutsches Wort besteht im Durchschnitt aus 1,3 bis 1,5 Tokens -- mehr als im Englischen (ca. 1,0 bis 1,3 Tokens pro Wort). Der Grund: Die Tokenizer der großen KI-Modelle wurden überwiegend auf englischen Texten trainiert und zerlegen lange deutsche Komposita in mehrere Teil-Tokens. Das Wort 'Krankenversicherung' wird beispielsweise in 3-4 Tokens zerlegt, während einfache Wörter wie 'ich' oder 'und' jeweils nur ein Token ergeben.

Warum sind Output-Tokens teurer als Input-Tokens?

Output-Tokens sind 3- bis 8-mal teurer, weil die Generierung von Text rechenintensiver ist als das Lesen. Beim Input verarbeitet das Modell alle Tokens parallel (Encoding). Beim Output muss es dagegen jeden Token einzeln vorhersagen und sequenziell erzeugen (Decoding), was deutlich mehr GPU-Rechenleistung erfordert.

Was kostet eine einzelne ChatGPT-API-Anfrage?

Eine typische API-Anfrage mit GPT-4o (500 Input-Tokens, 300 Output-Tokens) kostet etwa $0,004 -- umgerechnet rund 0,0037 EUR. Bei 1.000 solchen Anfragen pro Tag ergibt das rund 111 EUR monatlich. Mit dem günstigeren GPT-4o Mini sinken die Kosten auf unter 0,001 EUR pro Anfrage, also rund 7 EUR pro Monat für dieselbe Menge.

Welches KI-Modell hat das beste Preis-Leistungs-Verhältnis?

Das hängt vom Anwendungsfall ab. Die günstigsten Modelle (Input/Output pro 1 Mio. Tokens): Amazon Nova Micro ($0,035/$0,14), GPT-5 Nano ($0,05/$0,40), Gemini 2.0 Flash-Lite ($0,075/$0,30), Mistral Small ($0,10/$0,30), GPT-4.1 Nano ($0,10/$0,40), Llama 4 Scout via Groq ($0,11/$0,34), Grok 4.1 Fast ($0,20/$0,50), DeepSeek V3.2 ($0,28/$0,42). Die Mittelklasse: GPT-5 Mini ($0,25/$2,00), Gemini 2.5 Flash ($0,30/$2,50), GPT-4.1 Mini ($0,40/$1,60), GPT-5.2 ($0,875/$7,00), Claude Haiku 4.5 ($1/$5), o4-mini ($1,10/$4,40). Die Premium-Modelle: GPT-5 ($1,25/$10), GPT-5.1 ($1,25/$10), GPT-5.3 ($1,75/$14), GPT-4.1 ($2/$8), GPT-5.4 ($2,50/$15), Claude Sonnet 4.6 ($3/$15), Grok 4 ($3/$15), Claude Opus 4.6 ($5/$25). Als Faustregel: Testen Sie mehrere Modelle mit Ihren konkreten Aufgaben und vergleichen Sie Qualität und Kosten.

Wie kann ich meine monatlichen KI-Kosten vorab berechnen?

Schätzen Sie drei Werte: (1) die durchschnittliche Anzahl Input-Tokens pro Anfrage, (2) die durchschnittliche Anzahl Output-Tokens pro Antwort und (3) die Anzahl der Anfragen pro Monat. Multiplizieren Sie diese Werte mit den Token-Preisen des gewählten Modells. Unser Token-Rechner erledigt dies automatisch: Geben Sie Ihren Text ein, wählen Sie ein Modell, und Sie sehen sofort die Kosten pro Anfrage und die hochgerechneten Monatskosten.

Sind deutsche Texte teurer als englische bei der KI-Verarbeitung?

Ja, typischerweise 20 bis 30 % teurer. Deutsche Texte erzeugen mehr Tokens als die gleiche Information auf Englisch, weil die BPE-Tokenizer auf englischdominanten Trainingsdaten basieren. Lange Komposita wie 'Kraftfahrzeughaftpflichtversicherung' werden in viele Tokens zerlegt. Auch Umlaute (ä, ö, ü) und das ß können zusätzliche Tokens verursachen. Wer KI-gestützte Anwendungen für den deutschen Markt plant, sollte diesen Aufschlag in der Kostenkalkulation berücksichtigen.

Was ist der Unterschied zwischen Tokens und Wörtern?

Wörter sind linguistische Einheiten, die durch Leerzeichen getrennt werden. Tokens sind dagegen algorithmische Einheiten, die ein KI-Modell intern verwendet. Ein Wort kann aus einem oder mehreren Tokens bestehen. Das englische Wort 'hello' ist ein Token, aber 'unbelievable' wird in 'un', 'believ' und 'able' zerlegt -- drei Tokens. Im Deutschen ist das Verhältnis noch ungünstiger: 'Gesundheitsministerium' ergibt typischerweise 4-5 Tokens. Satzzeichen, Zahlen und Sonderzeichen sind jeweils eigene Tokens.

Wie unterscheiden sich die Preise von GPT, Claude und Gemini?

Stand März 2026: Die Flaggschiff-Modelle kosten pro 1 Mio. Input/Output-Tokens: Claude Opus 4.6 ca. $5/$25, GPT-4.1 ca. $2/$8, Gemini 2.5 Pro ca. $1,25/$10, Grok 4 ca. $3/$15, Mistral Large ca. $2/$6. Die Mittelklasse-Modelle: Claude Sonnet 4.6 $3/$15, GPT-4.1 Mini $0,40/$1,60, Gemini 2.5 Flash $0,30/$2,50, o4-mini $1,10/$4,40. Die Budget-Modelle: Claude Haiku 4.5 $1/$5, GPT-4.1 Nano $0,10/$0,40, Gemini 2.0 Flash-Lite $0,075/$0,30, DeepSeek V3.2 $0,28/$0,42, Grok 4.1 Fast $0,20/$0,50, Mistral Small $0,10/$0,30, Llama 4 Scout via Groq $0,11/$0,34, Amazon Nova Micro $0,035/$0,14. Die Preise sind im Vergleich zu 2024 um etwa 80 % gesunken.

Wie vergleichen sich alle KI-API-Anbieter beim Preis im Jahr 2026?

Hier ein vollständiger Preisvergleich aller großen KI-API-Anbieter (Input/Output pro 1 Mio. Tokens, Stand März 2026): Ultra-Budget: Amazon Nova Micro $0,035/$0,14 | GPT-5 Nano $0,05/$0,40 | Gemini 2.0 Flash-Lite $0,075/$0,30 | Mistral Small $0,10/$0,30 | GPT-4.1 Nano $0,10/$0,40 | Llama 4 Scout via Groq $0,11/$0,34. Budget: Grok 4.1 Fast (xAI) $0,20/$0,50 | DeepSeek V3.2 $0,28/$0,42 | Gemini 2.5 Flash $0,30/$2,50 | GPT-4.1 Mini $0,40/$1,60. Mittelklasse: GPT-5 Mini (OpenAI) $0,25/$2,00 | GPT-5.2 (OpenAI) $0,875/$7,00 | Claude Haiku 4.5 (Anthropic) $1/$5 | o4-mini (OpenAI) $1,10/$4,40 | Command R+ (Cohere) $2,50/$10 | Gemini 2.5 Pro (Google) $1,25/$10 | Mistral Large $2/$6. Premium: GPT-5 (OpenAI) $1,25/$10 | GPT-5.1 (OpenAI) $1,25/$10 | GPT-5.3 (OpenAI) $1,75/$14 | GPT-4.1 (OpenAI) $2/$8 | GPT-5.4 (OpenAI) $2,50/$15 | Claude Sonnet 4.6 (Anthropic) $3/$15 | Grok 4 (xAI) $3/$15 | Nova Premier (Amazon) $2,50/$10 | Claude Opus 4.6 (Anthropic) $5/$25. Alle Preise in USD. Viele Anbieter gewähren zusätzlich Rabatte für Batch-Verarbeitung (bis 50 %) und Prompt-Caching (bis 90 %). Open-Source-Modelle wie Llama 4 und DeepSeek V3.2 können über Hosting-Anbieter wie Groq besonders günstig genutzt werden.

Welche KI-Modelle eignen sich am besten für Programmierung, Reasoning und kreative Aufgaben?

Programmierung: Claude Opus 4.6 und Claude Sonnet 4.6 (Anthropic) gelten als die stärksten Modelle für Code-Generierung, Debugging und Refactoring. Codestral (Mistral) ist speziell für Code optimiert und bietet ein hervorragendes Preis-Leistungs-Verhältnis. GPT-5.4 und GPT-4.1 (OpenAI) und DeepSeek V3.2 liefern ebenfalls starke Code-Ergebnisse. Reasoning und komplexe Logik: o3 und o4-mini (OpenAI) sind auf mehrstufiges Reasoning spezialisiert. DeepSeek R1 bietet starkes Reasoning als Open-Source-Alternative. Gemini 2.5 Pro (Google) überzeugt bei langen, analytischen Aufgaben mit seinem 1-Mio.-Token-Kontextfenster. Kreative Texte und Konversation: Claude Opus 4.6 und Claude Sonnet 4.6 erzeugen besonders natürliche und kreative Texte. Grok 4 (xAI) punktet mit humorvollem, ungefiltertem Stil. GPT-4.1 ist ein solider Allrounder für kreative Inhalte. Kontextfenster für große Projekte: Grok 4.1 Fast bietet mit 2 Mio. Tokens das größte Kontextfenster. GPT-4.1, Claude Opus/Sonnet 4.6 und Gemini 2.5 Pro unterstützen jeweils 1 Mio. Tokens -- ideal für die Analyse großer Codebasen oder umfangreicher Dokumente.


Wichtige Begriffe rund um KI-Tokens

Token

Die kleinste Verarbeitungseinheit eines KI-Sprachmodells. Ein Token kann ein Wort, ein Wortteil oder ein einzelnes Zeichen sein. Die API-Kosten werden pro Token berechnet.

Tokenisierung (Tokenization)

Der Prozess, bei dem Rohtext in eine Folge von Tokens zerlegt wird. Moderne Modelle verwenden Byte Pair Encoding (BPE), das häufige Zeichenfolgen als einzelne Tokens zusammenfasst.

BPE (Byte Pair Encoding)

Ein Algorithmus zur Tokenisierung, der iterativ die häufigsten Zeichenpaare in einem Trainingskorpus zusammenfasst. GPT-4.1 (OpenAI), Claude Opus 4.6 (Anthropic), Gemini 2.5 Pro (Google), Grok 4 (xAI), Llama 4 (Meta), DeepSeek V3.2 (DeepSeek) und Mistral Large (Mistral AI) verwenden Varianten dieses Verfahrens.

Kontextfenster (Context Window)

Die maximale Anzahl von Tokens (Input + Output), die ein Modell in einer einzelnen Anfrage verarbeiten kann. GPT-4.1 unterstützt 1 Mio. Tokens, Claude Opus/Sonnet 4.6 bis zu 1 Mio. Tokens, Grok 4.1 Fast bis zu 2 Mio. Tokens und Gemini 2.5 Pro bis zu 1 Mio. Tokens.

Input-Tokens

Alle Tokens, die Sie an das Modell senden: Ihr Prompt, der System-Prompt, mitgesendeter Kontext und der bisherige Chatverlauf. Diese werden zum Input-Preis abgerechnet.

Output-Tokens

Die vom Modell generierten Tokens in der Antwort. Output-Tokens sind typischerweise 3- bis 8-mal teurer als Input-Tokens, da die sequenzielle Textgenerierung mehr Rechenleistung erfordert.

Prompt-Caching

Eine Technik, bei der wiederholt verwendete Prompt-Teile (z. B. System-Prompt) serverseitig zwischengespeichert werden. Reduziert die Input-Token-Kosten für den gecachten Anteil um bis zu 90 %.

LLM (Large Language Model)

Ein großes Sprachmodell, das auf riesigen Textmengen trainiert wurde und menschenähnliche Texte erzeugen kann. Die wichtigsten LLMs (Stand 2026): GPT-5.4 (OpenAI), Claude Opus 4.6 (Anthropic), Gemini 2.5 Pro (Google), Grok 4 (xAI), Llama 4 (Meta), DeepSeek V3.2 (DeepSeek), Mistral Large (Mistral AI), Command R+ (Cohere) und Nova Premier (Amazon).