Calcolatore token
Calcola il costo dell'utilizzo di modelli linguistici AI. Stima i token dal testo e confronta i prezzi di GPT-4, Claude, Gemini e altri modelli.
Cos'è un calcolatore di token per l'intelligenza artificiale?
Come calcolare il costo dei token AI
Formula per il calcolo del costo dei token AI
- = Costo totale della chiamata API (in USD o EUR)
- = Numero di token di input (prompt, messaggio di sistema e contesto)
- = Numero di token di output (la risposta generata dal modello)
- = Prezzo per 1 milione di token di input per il modello selezionato
- = Prezzo per 1 milione di token di output per il modello selezionato
Esempi pratici di calcolo dei costi dei token AI
Chatbot di assistenza clienti per un e-commerce italiano
Analisi documenti per uno studio legale
Assistente di programmazione per un team di sviluppo
Consigli per ridurre i costi dei token AI
- Scegli il modello giusto per ogni attività. Usa modelli economici come GPT-4.1 mini, Gemini 2.5 Flash-Lite, Claude Haiku, DeepSeek V3.2, Grok 4.1 Fast o Amazon Nova Micro per compiti semplici come classificazione, estrazione dati e riassunti. Riserva i modelli premium (GPT-5.4, Claude Sonnet/Opus, Gemini 2.5 Pro, Grok 4) per attività che richiedono ragionamento complesso. Un instradamento intelligente basato sulla complessità del compito può ridurre i costi del 40-60%.
- Attiva il prompt caching per i contesti ripetuti. Se la tua applicazione invia lo stesso prompt di sistema ad ogni richiesta, il caching può ridurre i costi dei token di input fino al 90%. OpenAI lo applica automaticamente, mentre Anthropic richiede intestazioni cache_control esplicite.
- Usa la Batch API per i carichi non urgenti. OpenAI e Anthropic offrono l'elaborazione batch con uno sconto del 50% sui prezzi dei token. Se il tuo compito non richiede risposte in tempo reale (report, analisi massive, elaborazione dati), sfrutta il batch e risparmia la metà.
- Ottimizza i prompt eliminando il superfluo. Ogni token nel tuo input ha un costo. Rimuovi istruzioni ridondanti, prompt di sistema prolissi e contesto non necessario. Un prompt ben costruito di 500 token spesso supera in prestazioni uno di 2.000 token mal scritto, costando il 75% in meno.
- Limita la lunghezza dell'output. Imposta il parametro max_tokens per evitare che il modello generi risposte inutilmente lunghe. Se hai bisogno di una risposta in una frase, limita l'output a 100 token anziché lasciare il modello libero di scrivere paragrafi interi.
- Monitora i consumi e imposta avvisi di spesa. Usa la dashboard del provider o strumenti di terze parti come Helicone per tracciare il consumo di token per endpoint, modello e utente. Imposta limiti di spesa rigidi per prevenire costi fuori controllo causati da bug o picchi di traffico imprevisti.
- Valuta i modelli open-source per volumi elevati. Modelli self-hosted come Llama 4 (Meta), Mistral Small o DeepSeek V3.2 non hanno costi per token. Provider hosted come Groq e Together AI offrono inferenza Llama 4 e DeepSeek a 0,11-0,50 $ per milione di token. A volumi molto alti (milioni di richieste al giorno), il self-hosting può essere 5-10 volte più economico delle API commerciali.
Domande frequenti sui token AI e i costi delle API
Quanti token ci sono in 1.000 parole di testo italiano?
Circa 1.500-1.700 token. In italiano il rapporto è meno favorevole rispetto all'inglese (dove 1.000 parole corrispondono a circa 1.333 token) perché i tokenizer dei modelli AI sono stati addestrati prevalentemente su testi in inglese. Le parole italiane più lunghe e la maggiore complessità morfologica causano una suddivisione in più sotto-token. Ad esempio, 'assicurazione' potrebbe essere scomposta in 3-4 token, mentre parole brevi come 'il' o 'con' restano un singolo token. Il codice e i testi con molti caratteri speciali tendono a usare ancora più token.
Perché i token di output costano più di quelli di input?
I token di output costano 3-5 volte di più a causa del funzionamento interno degli LLM. I token di input vengono elaborati in un singolo passaggio (forward pass), con tutti i token calcolati in parallelo. I token di output, invece, devono essere generati uno alla volta in modo sequenziale: ogni nuovo token richiede un passaggio separato attraverso il modello. Questa generazione sequenziale è molto più dispendiosa in termini di calcolo e memoria GPU. Ad esempio, Claude Sonnet 4.6 addebita 3 $ per milione di token di input ma 15 $ per milione di token di output -- un rapporto 5:1.
Qual è il modello AI più economico per le API nel 2026?
A marzo 2026, i modelli API più economici per provider sono: Amazon Nova Micro (0,035 $/0,14 $ per 1M token), GPT-5 Nano (0,05 $/0,40 $), Gemini 2.0 Flash-Lite (0,075 $/0,30 $), Mistral Small (0,10 $/0,30 $), GPT-4.1 Nano (0,10 $/0,40 $), Llama 4 Scout via Groq (0,11 $/0,34 $), Grok 4.1 Fast (0,20 $/0,50 $) e DeepSeek V3.2 (0,28 $/0,42 $). Per budget intermedi: Gemini 2.5 Flash (0,30 $/2,50 $), GPT-4.1 Mini (0,40 $/1,60 $), Claude Haiku 4.5 (1 $/5 $), o4-mini (1,10 $/4,40 $). Per le massime prestazioni: GPT-5 (1,25 $/10 $), GPT-4.1 (2 $/8 $), Claude Sonnet 4.6 (3 $/15 $), Grok 4 (3 $/15 $), Claude Opus 4.6 (5 $/25 $). La scelta migliore dipende dai requisiti qualitativi dell'applicazione.
Come funziona il prompt caching e quanto si risparmia?
Il prompt caching memorizza i vettori chiave-valore dei prefissi di prompt ripetuti (come i prompt di sistema) in modo che non debbano essere ricalcolati ad ogni richiesta. I token memorizzati nella cache vengono fatturati al 10-50% della tariffa standard. Per le applicazioni che inviano lo stesso prompt di sistema ad ogni richiesta -- chatbot, assistenti alla programmazione, processori di documenti -- il prompt caching può ridurre i costi totali di input fino al 90%. OpenAI lo applica automaticamente, mentre Anthropic e Google richiedono una configurazione esplicita.
I testi in italiano costano di più rispetto all'inglese con le API AI?
Sì, tipicamente il 20-35% in più. I testi italiani generano più token rispetto alla stessa informazione scritta in inglese, perché i tokenizer BPE si basano su dati di addestramento a predominanza anglofona. Parole italiane lunghe come 'commercializzazione' o 'sottoscrizione' vengono suddivise in più token. Anche le lettere accentate (à, è, ù) possono generare token aggiuntivi. Chi sviluppa applicazioni AI per il mercato italiano dovrebbe considerare questo sovrapprezzo nella pianificazione dei costi.
Qual è la differenza tra token e parole?
Una parola è un'unità linguistica separata da spazi. Un token è un'unità definita dal tokenizer del modello: può essere una parola intera, parte di una parola, un singolo carattere o un segno di punteggiatura. Parole comuni come 'il' o 'che' sono di solito un token. Parole più lunghe o meno frequenti vengono suddivise in più token: 'incredibile' potrebbe diventare 'in', 'cred', 'ibile' (3 token). Numeri, codice e testo non inglese richiedono generalmente più token per parola, motivo per cui la fatturazione basata sui token non corrisponde direttamente al conteggio delle parole.
Quanto costa elaborare un documento di 10.000 parole con GPT?
Un documento di 10.000 parole italiane corrisponde a circa 15.000-17.000 token di input (la stima è superiore rispetto all'inglese). Con GPT-4.1 (2,00 $ per 1M token di input), il costo del solo input è circa 0,030-0,034 $. Se il modello genera un riassunto di 500 parole (circa 750-850 token di output a 8,00 $ per 1M), il costo dell'output è circa 0,006 $. Costo totale per documento: circa 0,036-0,040 $ (meno di 0,04 EUR). Elaborare 1.000 documenti simili costerebbe circa 36-40 EUR. Con il più economico GPT-4.1 mini, la stessa operazione costa circa 0,008 $ per documento -- circa 5 volte meno.
Come si confrontano i prezzi di GPT, Claude e Gemini nel 2026?
A marzo 2026 (input/output per 1M token): Budget -- Amazon Nova Micro 0,035 $/0,14 $, GPT-5 Nano 0,05 $/0,40 $, Gemini 2.0 Flash-Lite 0,075 $/0,30 $, Mistral Small 0,10 $/0,30 $, GPT-4.1 Nano 0,10 $/0,40 $, Llama 4 Scout via Groq 0,11 $/0,34 $, Grok 4.1 Fast 0,20 $/0,50 $, DeepSeek V3.2 0,28 $/0,42 $. Fascia media -- GPT-5 Mini 0,25 $/2,00 $, Gemini 2.5 Flash 0,30 $/2,50 $, GPT-4.1 Mini 0,40 $/1,60 $, Claude Haiku 4.5 1 $/5 $, o4-mini 1,10 $/4,40 $. Premium -- Gemini 2.5 Pro 1,25 $/10 $, GPT-5 1,25 $/10 $, GPT-4.1 2 $/8 $, GPT-5.4 2,50 $/15 $, Claude Sonnet 4.6 3 $/15 $, Grok 4 3 $/15 $, Claude Opus 4.6 5 $/25 $. Rispetto al 2024, i prezzi sono calati di circa l'80%.
Quali modelli AI sono i migliori per programmazione, ragionamento e scrittura creativa?
Programmazione: Claude Opus 4.6 e Claude Sonnet 4.6 (Anthropic) sono leader nei benchmark per il codice, seguiti da GPT-5.4 e GPT-4.1 (OpenAI). Codestral di Mistral è specializzato per il codice a un costo contenuto (0,30 $/0,90 $ per 1M token). Ragionamento: o3 e o4-mini (OpenAI) usano il chain-of-thought reasoning, DeepSeek R1 (0,55 $/2,19 $) è l'alternativa open-source più forte, Gemini 2.5 Pro (Google) eccelle nell'analisi complessa. Scrittura creativa: Claude Sonnet 4.6 bilancia qualità e costo, GPT-4o gestisce input multimodali. Per volumi elevati a basso costo: DeepSeek V3.2, Amazon Nova Micro, Mistral Small e Llama 4 via Groq offrono i prezzi per token più bassi.
Glossario dei termini chiave
Token
L'unità minima di testo elaborata da un modello linguistico AI. Un token può essere una parola, parte di una parola, un carattere o un segno di punteggiatura. La maggior parte delle parole italiane corrisponde a 1-2 token.
Tokenizer (Tokenizzatore)
L'algoritmo che converte il testo grezzo in token. Modelli diversi usano tokenizer differenti (es. tiktoken per OpenAI, SentencePiece per Google), il che significa che lo stesso testo può avere conteggi di token diversi a seconda del provider.
BPE (Byte Pair Encoding)
L'algoritmo di tokenizzazione più diffuso nei modelli AI moderni. Costruisce un vocabolario unendo iterativamente le coppie di caratteri o sotto-parole più frequenti nel corpus di addestramento. GPT, Claude, Llama e DeepSeek utilizzano varianti di BPE.
Finestra di contesto (Context Window)
Il numero massimo di token che un modello può elaborare in una singola richiesta, inclusi input e output. Le finestre di contesto variano da 128K a 2M token a seconda del modello: GPT-4.1 supporta 1M, Claude Opus 4.6 supporta 1M, Grok 4.1 Fast supporta 2M e Gemini 2.5 Pro fino a 1M token.
Prompt caching
Una tecnica di ottimizzazione dei costi che memorizza e riutilizza i vettori chiave-valore calcolati per le porzioni ripetute dei prompt, riducendo sia la latenza che i costi dei token di input fino al 90% per la parte memorizzata nella cache.
Token di input vs. token di output
I token di input sono i token contenuti nel prompt inviato al modello. I token di output sono quelli generati dal modello nella risposta. I token di output costano 3-5 volte di più a causa del calcolo sequenziale necessario per generare ciascuno di essi.
Costo per milione di token
L'unità di prezzo standard per le API dei modelli linguistici. I provider indicano i prezzi come dollari per 1 milione di token (scritto come $/1M token), separatamente per input e output.
