Token-Rechner
Berechnen Sie die Kosten für die Nutzung von KI-Sprachmodellen. Schätzen Sie Tokens aus Text und vergleichen Sie Preise zwischen Modellen wie GPT-4, Claude und Gemini.
Was sind Tokens bei KI-Sprachmodellen?
Wie berechnet man KI-Token und API-Kosten?
Formel zur Berechnung der Token-Kosten
- = Gesamtkosten pro API-Aufruf (in USD oder EUR)
- = Anzahl der Input-Tokens (Ihr Prompt, System-Prompt und Kontext)
- = Anzahl der Output-Tokens (die generierte Antwort des Modells)
- = Preis pro 1 Million Input-Tokens (modellabhängig)
- = Preis pro 1 Million Output-Tokens (modellabhängig)
Praxisbeispiele: Token-Kosten für typische Anwendungsfälle
Kundenservice-Chatbot für einen deutschen Online-Shop
Dokumentenanalyse in einer Kanzlei
Content-Erstellung für ein SaaS-Startup
Tipps zur Senkung Ihrer KI-Token-Kosten
- Wählen Sie das richtige Modell für die Aufgabe. Nicht jede Anfrage braucht das teuerste Modell. Verwenden Sie Budget-Modelle wie GPT-4.1 mini, Gemini 2.5 Flash-Lite, Claude Haiku, DeepSeek V3.2, Grok 4.1 Fast oder Amazon Nova Micro für einfache Klassifikationen und Zusammenfassungen, und reservieren Sie Premium-Modelle wie GPT-5.4, GPT-4.1, Claude Sonnet/Opus, Gemini 2.5 Pro, Grok 4 oder Mistral Large für komplexe Reasoning-Aufgaben. Auch Open-Source-Modelle wie Llama 4 (Meta), Mistral Small, DeepSeek V3.2 über günstige Hosting-Anbieter wie Groq ($0,11-$0,50/1M Tokens) sind eine starke Alternative. Ein intelligenter Modell-Mix kann bis zu 80 % Kosten einsparen.
- Halten Sie Prompts kurz und präzise. Jedes überflüssige Wort im Prompt kostet Tokens. Formulieren Sie klare Anweisungen und vermeiden Sie redundanten Kontext. Fordern Sie explizit kurze Antworten an, zum Beispiel: 'Antworte in maximal 3 Sätzen' oder 'Nur den geänderten Code, keine Erklärung'.
- Nutzen Sie Prompt-Caching. Wenn Ihr System-Prompt bei jeder Anfrage identisch ist, bieten Anbieter wie Anthropic und OpenAI Caching an, das bis zu 90 % der Input-Kosten für den gecachten Teil spart.
- Setzen Sie Batch-Verarbeitung ein. Wenn Ihre Anfragen nicht zeitkritisch sind, können Sie über Batch-APIs bis zu 50 % gegenüber Einzelanfragen sparen.
- Begrenzen Sie die Ausgabelänge. Setzen Sie den Parameter max_tokens auf den tatsächlich benötigten Wert. Ein unbegrenztes Modell erzeugt oft längere Antworten als nötig -- und jedes zusätzliche Output-Token kostet 3- bis 8-mal mehr als ein Input-Token.
- Komprimieren Sie den Kontext bei Chat-Verläufen. Statt den gesamten Chatverlauf mitzusenden, fassen Sie ältere Nachrichten zusammen. Das reduziert die Input-Tokens drastisch bei langen Konversationen.
Häufig gestellte Fragen zu KI-Tokens und Kosten
Wie viele Tokens hat ein deutsches Wort?
Ein deutsches Wort besteht im Durchschnitt aus 1,3 bis 1,5 Tokens -- mehr als im Englischen (ca. 1,0 bis 1,3 Tokens pro Wort). Der Grund: Die Tokenizer der großen KI-Modelle wurden überwiegend auf englischen Texten trainiert und zerlegen lange deutsche Komposita in mehrere Teil-Tokens. Das Wort 'Krankenversicherung' wird beispielsweise in 3-4 Tokens zerlegt, während einfache Wörter wie 'ich' oder 'und' jeweils nur ein Token ergeben.
Warum sind Output-Tokens teurer als Input-Tokens?
Output-Tokens sind 3- bis 8-mal teurer, weil die Generierung von Text rechenintensiver ist als das Lesen. Beim Input verarbeitet das Modell alle Tokens parallel (Encoding). Beim Output muss es dagegen jeden Token einzeln vorhersagen und sequenziell erzeugen (Decoding), was deutlich mehr GPU-Rechenleistung erfordert.
Was kostet eine einzelne ChatGPT-API-Anfrage?
Eine typische API-Anfrage mit GPT-4o (500 Input-Tokens, 300 Output-Tokens) kostet etwa $0,004 -- umgerechnet rund 0,0037 EUR. Bei 1.000 solchen Anfragen pro Tag ergibt das rund 111 EUR monatlich. Mit dem günstigeren GPT-4o Mini sinken die Kosten auf unter 0,001 EUR pro Anfrage, also rund 7 EUR pro Monat für dieselbe Menge.
Welches KI-Modell hat das beste Preis-Leistungs-Verhältnis?
Das hängt vom Anwendungsfall ab. Die günstigsten Modelle (Input/Output pro 1 Mio. Tokens): Amazon Nova Micro ($0,035/$0,14), GPT-5 Nano ($0,05/$0,40), Gemini 2.0 Flash-Lite ($0,075/$0,30), Mistral Small ($0,10/$0,30), GPT-4.1 Nano ($0,10/$0,40), Llama 4 Scout via Groq ($0,11/$0,34), Grok 4.1 Fast ($0,20/$0,50), DeepSeek V3.2 ($0,28/$0,42). Die Mittelklasse: GPT-5 Mini ($0,25/$2,00), Gemini 2.5 Flash ($0,30/$2,50), GPT-4.1 Mini ($0,40/$1,60), GPT-5.2 ($0,875/$7,00), Claude Haiku 4.5 ($1/$5), o4-mini ($1,10/$4,40). Die Premium-Modelle: GPT-5 ($1,25/$10), GPT-5.1 ($1,25/$10), GPT-5.3 ($1,75/$14), GPT-4.1 ($2/$8), GPT-5.4 ($2,50/$15), Claude Sonnet 4.6 ($3/$15), Grok 4 ($3/$15), Claude Opus 4.6 ($5/$25). Als Faustregel: Testen Sie mehrere Modelle mit Ihren konkreten Aufgaben und vergleichen Sie Qualität und Kosten.
Wie kann ich meine monatlichen KI-Kosten vorab berechnen?
Schätzen Sie drei Werte: (1) die durchschnittliche Anzahl Input-Tokens pro Anfrage, (2) die durchschnittliche Anzahl Output-Tokens pro Antwort und (3) die Anzahl der Anfragen pro Monat. Multiplizieren Sie diese Werte mit den Token-Preisen des gewählten Modells. Unser Token-Rechner erledigt dies automatisch: Geben Sie Ihren Text ein, wählen Sie ein Modell, und Sie sehen sofort die Kosten pro Anfrage und die hochgerechneten Monatskosten.
Sind deutsche Texte teurer als englische bei der KI-Verarbeitung?
Ja, typischerweise 20 bis 30 % teurer. Deutsche Texte erzeugen mehr Tokens als die gleiche Information auf Englisch, weil die BPE-Tokenizer auf englischdominanten Trainingsdaten basieren. Lange Komposita wie 'Kraftfahrzeughaftpflichtversicherung' werden in viele Tokens zerlegt. Auch Umlaute (ä, ö, ü) und das ß können zusätzliche Tokens verursachen. Wer KI-gestützte Anwendungen für den deutschen Markt plant, sollte diesen Aufschlag in der Kostenkalkulation berücksichtigen.
Was ist der Unterschied zwischen Tokens und Wörtern?
Wörter sind linguistische Einheiten, die durch Leerzeichen getrennt werden. Tokens sind dagegen algorithmische Einheiten, die ein KI-Modell intern verwendet. Ein Wort kann aus einem oder mehreren Tokens bestehen. Das englische Wort 'hello' ist ein Token, aber 'unbelievable' wird in 'un', 'believ' und 'able' zerlegt -- drei Tokens. Im Deutschen ist das Verhältnis noch ungünstiger: 'Gesundheitsministerium' ergibt typischerweise 4-5 Tokens. Satzzeichen, Zahlen und Sonderzeichen sind jeweils eigene Tokens.
Wie unterscheiden sich die Preise von GPT, Claude und Gemini?
Stand März 2026: Die Flaggschiff-Modelle kosten pro 1 Mio. Input/Output-Tokens: Claude Opus 4.6 ca. $5/$25, GPT-4.1 ca. $2/$8, Gemini 2.5 Pro ca. $1,25/$10, Grok 4 ca. $3/$15, Mistral Large ca. $2/$6. Die Mittelklasse-Modelle: Claude Sonnet 4.6 $3/$15, GPT-4.1 Mini $0,40/$1,60, Gemini 2.5 Flash $0,30/$2,50, o4-mini $1,10/$4,40. Die Budget-Modelle: Claude Haiku 4.5 $1/$5, GPT-4.1 Nano $0,10/$0,40, Gemini 2.0 Flash-Lite $0,075/$0,30, DeepSeek V3.2 $0,28/$0,42, Grok 4.1 Fast $0,20/$0,50, Mistral Small $0,10/$0,30, Llama 4 Scout via Groq $0,11/$0,34, Amazon Nova Micro $0,035/$0,14. Die Preise sind im Vergleich zu 2024 um etwa 80 % gesunken.
Wie vergleichen sich alle KI-API-Anbieter beim Preis im Jahr 2026?
Hier ein vollständiger Preisvergleich aller großen KI-API-Anbieter (Input/Output pro 1 Mio. Tokens, Stand März 2026): Ultra-Budget: Amazon Nova Micro $0,035/$0,14 | GPT-5 Nano $0,05/$0,40 | Gemini 2.0 Flash-Lite $0,075/$0,30 | Mistral Small $0,10/$0,30 | GPT-4.1 Nano $0,10/$0,40 | Llama 4 Scout via Groq $0,11/$0,34. Budget: Grok 4.1 Fast (xAI) $0,20/$0,50 | DeepSeek V3.2 $0,28/$0,42 | Gemini 2.5 Flash $0,30/$2,50 | GPT-4.1 Mini $0,40/$1,60. Mittelklasse: GPT-5 Mini (OpenAI) $0,25/$2,00 | GPT-5.2 (OpenAI) $0,875/$7,00 | Claude Haiku 4.5 (Anthropic) $1/$5 | o4-mini (OpenAI) $1,10/$4,40 | Command R+ (Cohere) $2,50/$10 | Gemini 2.5 Pro (Google) $1,25/$10 | Mistral Large $2/$6. Premium: GPT-5 (OpenAI) $1,25/$10 | GPT-5.1 (OpenAI) $1,25/$10 | GPT-5.3 (OpenAI) $1,75/$14 | GPT-4.1 (OpenAI) $2/$8 | GPT-5.4 (OpenAI) $2,50/$15 | Claude Sonnet 4.6 (Anthropic) $3/$15 | Grok 4 (xAI) $3/$15 | Nova Premier (Amazon) $2,50/$10 | Claude Opus 4.6 (Anthropic) $5/$25. Alle Preise in USD. Viele Anbieter gewähren zusätzlich Rabatte für Batch-Verarbeitung (bis 50 %) und Prompt-Caching (bis 90 %). Open-Source-Modelle wie Llama 4 und DeepSeek V3.2 können über Hosting-Anbieter wie Groq besonders günstig genutzt werden.
Welche KI-Modelle eignen sich am besten für Programmierung, Reasoning und kreative Aufgaben?
Programmierung: Claude Opus 4.6 und Claude Sonnet 4.6 (Anthropic) gelten als die stärksten Modelle für Code-Generierung, Debugging und Refactoring. Codestral (Mistral) ist speziell für Code optimiert und bietet ein hervorragendes Preis-Leistungs-Verhältnis. GPT-5.4 und GPT-4.1 (OpenAI) und DeepSeek V3.2 liefern ebenfalls starke Code-Ergebnisse. Reasoning und komplexe Logik: o3 und o4-mini (OpenAI) sind auf mehrstufiges Reasoning spezialisiert. DeepSeek R1 bietet starkes Reasoning als Open-Source-Alternative. Gemini 2.5 Pro (Google) überzeugt bei langen, analytischen Aufgaben mit seinem 1-Mio.-Token-Kontextfenster. Kreative Texte und Konversation: Claude Opus 4.6 und Claude Sonnet 4.6 erzeugen besonders natürliche und kreative Texte. Grok 4 (xAI) punktet mit humorvollem, ungefiltertem Stil. GPT-4.1 ist ein solider Allrounder für kreative Inhalte. Kontextfenster für große Projekte: Grok 4.1 Fast bietet mit 2 Mio. Tokens das größte Kontextfenster. GPT-4.1, Claude Opus/Sonnet 4.6 und Gemini 2.5 Pro unterstützen jeweils 1 Mio. Tokens -- ideal für die Analyse großer Codebasen oder umfangreicher Dokumente.
Wichtige Begriffe rund um KI-Tokens
Token
Die kleinste Verarbeitungseinheit eines KI-Sprachmodells. Ein Token kann ein Wort, ein Wortteil oder ein einzelnes Zeichen sein. Die API-Kosten werden pro Token berechnet.
Tokenisierung (Tokenization)
Der Prozess, bei dem Rohtext in eine Folge von Tokens zerlegt wird. Moderne Modelle verwenden Byte Pair Encoding (BPE), das häufige Zeichenfolgen als einzelne Tokens zusammenfasst.
BPE (Byte Pair Encoding)
Ein Algorithmus zur Tokenisierung, der iterativ die häufigsten Zeichenpaare in einem Trainingskorpus zusammenfasst. GPT-4.1 (OpenAI), Claude Opus 4.6 (Anthropic), Gemini 2.5 Pro (Google), Grok 4 (xAI), Llama 4 (Meta), DeepSeek V3.2 (DeepSeek) und Mistral Large (Mistral AI) verwenden Varianten dieses Verfahrens.
Kontextfenster (Context Window)
Die maximale Anzahl von Tokens (Input + Output), die ein Modell in einer einzelnen Anfrage verarbeiten kann. GPT-4.1 unterstützt 1 Mio. Tokens, Claude Opus/Sonnet 4.6 bis zu 1 Mio. Tokens, Grok 4.1 Fast bis zu 2 Mio. Tokens und Gemini 2.5 Pro bis zu 1 Mio. Tokens.
Input-Tokens
Alle Tokens, die Sie an das Modell senden: Ihr Prompt, der System-Prompt, mitgesendeter Kontext und der bisherige Chatverlauf. Diese werden zum Input-Preis abgerechnet.
Output-Tokens
Die vom Modell generierten Tokens in der Antwort. Output-Tokens sind typischerweise 3- bis 8-mal teurer als Input-Tokens, da die sequenzielle Textgenerierung mehr Rechenleistung erfordert.
Prompt-Caching
Eine Technik, bei der wiederholt verwendete Prompt-Teile (z. B. System-Prompt) serverseitig zwischengespeichert werden. Reduziert die Input-Token-Kosten für den gecachten Anteil um bis zu 90 %.
LLM (Large Language Model)
Ein großes Sprachmodell, das auf riesigen Textmengen trainiert wurde und menschenähnliche Texte erzeugen kann. Die wichtigsten LLMs (Stand 2026): GPT-5.4 (OpenAI), Claude Opus 4.6 (Anthropic), Gemini 2.5 Pro (Google), Grok 4 (xAI), Llama 4 (Meta), DeepSeek V3.2 (DeepSeek), Mistral Large (Mistral AI), Command R+ (Cohere) und Nova Premier (Amazon).
