Smart Calculators

Smart

Calculators

Calcolatore token

Calcola il costo dell'utilizzo di modelli linguistici AI. Stima i token dal testo e confronta i prezzi di GPT-4, Claude, Gemini e altri modelli.

Calcolatore token. Conteggio token AI e stima del costo API per modelli LLM.
Un calcolatore di token stima il numero di token in qualsiasi testo e calcola il costo API per modelli AI come GPT, Claude, Gemini, Grok e DeepSeek. Converte la lunghezza del testo in token usando il rapporto standard di circa 1 token ogni 4 caratteri, quindi applica il prezzo per milione di token di ciascun modello per mostrare istantaneamente i costi di input e output.

Cos'è un calcolatore di token per l'intelligenza artificiale?

Un calcolatore di token AI è uno strumento che stima il numero di token contenuti in un testo e calcola il costo di elaborazione tramite le API dei modelli linguistici di grandi dimensioni (LLM) come GPT, Claude, Gemini, Grok, DeepSeek, Mistral e Llama. I token sono le unità fondamentali con cui i modelli di intelligenza artificiale leggono e generano testo: un token può essere una parola, parte di una parola o persino un singolo carattere.
Per sviluppatori e aziende che costruiscono applicazioni basate sull'AI, comprendere il costo dei token è essenziale per la pianificazione del budget e il controllo delle spese. Ogni chiamata API a un LLM viene fatturata in base al numero di token di input (il prompt inviato) e token di output (la risposta generata dal modello). Una singola richiesta può costare frazioni di centesimo, ma su larga scala -- migliaia o milioni di richieste al giorno -- i costi dei token possono diventare una voce di spesa significativa.
La regola generale è che 1 token corrisponde a circa 4 caratteri di testo inglese, ovvero circa 0,75 parole. Per l'italiano il rapporto è meno favorevole: un testo di 1.000 parole italiane genera circa 1.500-1.700 token, perché i tokenizer dei modelli principali sono stati addestrati prevalentemente su testi in inglese e tendono a suddividere le parole italiane più lunghe in più sotto-token. La stessa frase può produrre conteggi diversi a seconda del modello, poiché ogni provider utilizza un tokenizer differente: OpenAI usa tiktoken (basato su BPE), Anthropic il proprio tokenizer e Google SentencePiece.

Come calcolare il costo dei token AI

Per calcolare il costo di una chiamata API a un modello AI servono tre informazioni: il numero di token di input, il numero di token di output e il prezzo per token del modello scelto.
Ecco il procedimento passo dopo passo:
1. Stimare i token di input. Incolla il testo del prompt nel nostro calcolatore oppure usa l'approssimazione di 1 token ogni 4 caratteri per l'inglese. Per l'italiano, considera circa 1,3-1,5 token per parola a causa della maggiore complessità morfologica.
2. Stimare i token di output. Corrisponde alla lunghezza attesa della risposta del modello. Una risposta breve è di circa 100-300 token, una spiegazione dettagliata può arrivare a 1.000-2.000 token.
3. Consultare il listino prezzi del modello. I provider AI pubblicano le tariffe come costo per 1 milione di token, con prezzi separati per input e output.
4. Applicare la formula di calcolo del costo (vedi sotto).
Esempio pratico: invii un prompt di 2.000 token a Claude Sonnet 4.6 (3 $ per 1M di token di input) e ricevi una risposta di 500 token (15 $ per 1M di token di output). Il costo è: (2.000 / 1.000.000 x 3) + (500 / 1.000.000 x 15) = 0,006 + 0,0075 = 0,0135 $ per richiesta, pari a circa 0,012 EUR. Con 10.000 richieste al giorno, il totale è circa 120 EUR giornalieri, ovvero circa 3.600 EUR al mese.
I token di output costano in genere 3-5 volte di più rispetto ai token di input, perché la generazione di ogni token richiede un passaggio separato attraverso il modello (forward pass sequenziale), mentre tutti i token di input vengono elaborati in parallelo in un unico passaggio.

Formula per il calcolo del costo dei token AI

C=Tin×Pin1,000,000+Tout×Pout1,000,000C = \frac{T_{in} \times P_{in}}{1{,}000{,}000} + \frac{T_{out} \times P_{out}}{1{,}000{,}000}
  • CC = Costo totale della chiamata API (in USD o EUR)
  • TinT_{in} = Numero di token di input (prompt, messaggio di sistema e contesto)
  • ToutT_{out} = Numero di token di output (la risposta generata dal modello)
  • PinP_{in} = Prezzo per 1 milione di token di input per il modello selezionato
  • PoutP_{out} = Prezzo per 1 milione di token di output per il modello selezionato
Per calcolare i costi mensili o annuali su larga scala, si estende la formula includendo il volume di richieste:
Cmensile=(Tin×Pin+Tout×Pout1,000,000)×R×30C_{mensile} = \left(\frac{T_{in} \times P_{in} + T_{out} \times P_{out}}{1{,}000{,}000}\right) \times R \times 30
dove R è il numero di richieste API al giorno. Se utilizzi il prompt caching (disponibile su OpenAI, Anthropic e Google), i token di input già memorizzati vengono fatturati al 10-50% della tariffa standard, riducendo significativamente i costi per applicazioni con prompt di sistema ripetuti. In quel caso, suddividi i token di input in porzione cachata e non cachata, applicando la tariffa scontata alla porzione memorizzata.

Esempi pratici di calcolo dei costi dei token AI

Chatbot di assistenza clienti per un e-commerce italiano

Un negozio online italiano utilizza un chatbot AI per il supporto clienti basato su GPT-4.1 mini (0,40 $ per 1M di token di input, 1,60 $ per 1M di token di output). Ogni conversazione ha in media 800 token di input (prompt di sistema + messaggio del cliente + storico conversazione) e 400 token di output (risposta del bot). Volume mensile: 50.000 conversazioni.
Costo input: 50.000 x 800 / 1.000.000 x 0,40 = 16,00 $ Costo output: 50.000 x 400 / 1.000.000 x 1,60 = 32,00 $ Costo mensile totale: 48,00 $ -- circa 44 EUR
Usando il prompt caching per il prompt di sistema di 300 token (scontato del 50%), il costo di input scende a circa 13,00 $ -- un risparmio di 3 $ al mese. Con un modello premium come Claude Sonnet 4.6 (3 $/15 $ per 1M token), lo stesso carico costerebbe 1.020 $ al mese (circa 940 EUR), oltre 21 volte di più. La scelta del modello è la leva più importante per l'ottimizzazione dei costi.

Analisi documenti per uno studio legale

Uno studio legale di Milano usa l'AI per analizzare quotidianamente 25 contratti (circa 3.000 token ciascuno) e generare riepiloghi (circa 800 token di output per documento). Su base mensile (22 giorni lavorativi): 550 richieste x (3.000 input + 800 output). Con Gemini 2.5 Flash (0,30 $/2,50 $ per 1M):
Costo input: 550 x 3.000 x 0,30 / 1.000.000 = 0,50 $ Costo output: 550 x 800 x 2,50 / 1.000.000 = 1,10 $ Totale: circa 1,60 $ al mese, ovvero meno di 1,50 EUR
Con GPT-4.1 (2 $/8 $ per 1M), il costo salirebbe a 6,82 $ (circa 6,30 EUR). In entrambi i casi, l'AI fa risparmiare allo studio ore di lavoro manuale per meno del costo di un caffè al giorno.

Assistente di programmazione per un team di sviluppo

Una startup tecnologica romana con un team di 15 sviluppatori usa un assistente AI basato su Claude Sonnet 4.6 (3 $ per 1M input, 15 $ per 1M output). Ogni sviluppatore effettua circa 40 richieste al giorno, con una media di 2.500 token di input (contesto del codice + domanda) e 800 token di output (suggerimenti + spiegazione).
Richieste giornaliere: 15 x 40 = 600 Costo input giornaliero: 600 x 2.500 / 1.000.000 x 3,00 = 4,50 $ Costo output giornaliero: 600 x 800 / 1.000.000 x 15,00 = 7,20 $ Totale giornaliero: 11,70 $ | Totale mensile (22 giorni): 257,40 $ -- circa 237 EUR
Ciò equivale a circa 15,80 EUR per sviluppatore al mese -- meno del costo di due pranzi. Rispetto ai guadagni di produttività derivanti dalla programmazione assistita dall'AI, il ritorno sull'investimento è notevole. Attivando il prompt caching per il prompt di sistema condiviso, i costi potrebbero ridursi di un ulteriore 15-25%.

Consigli per ridurre i costi dei token AI

  • Scegli il modello giusto per ogni attività. Usa modelli economici come GPT-4.1 mini, Gemini 2.5 Flash-Lite, Claude Haiku, DeepSeek V3.2, Grok 4.1 Fast o Amazon Nova Micro per compiti semplici come classificazione, estrazione dati e riassunti. Riserva i modelli premium (GPT-5.4, Claude Sonnet/Opus, Gemini 2.5 Pro, Grok 4) per attività che richiedono ragionamento complesso. Un instradamento intelligente basato sulla complessità del compito può ridurre i costi del 40-60%.
  • Attiva il prompt caching per i contesti ripetuti. Se la tua applicazione invia lo stesso prompt di sistema ad ogni richiesta, il caching può ridurre i costi dei token di input fino al 90%. OpenAI lo applica automaticamente, mentre Anthropic richiede intestazioni cache_control esplicite.
  • Usa la Batch API per i carichi non urgenti. OpenAI e Anthropic offrono l'elaborazione batch con uno sconto del 50% sui prezzi dei token. Se il tuo compito non richiede risposte in tempo reale (report, analisi massive, elaborazione dati), sfrutta il batch e risparmia la metà.
  • Ottimizza i prompt eliminando il superfluo. Ogni token nel tuo input ha un costo. Rimuovi istruzioni ridondanti, prompt di sistema prolissi e contesto non necessario. Un prompt ben costruito di 500 token spesso supera in prestazioni uno di 2.000 token mal scritto, costando il 75% in meno.
  • Limita la lunghezza dell'output. Imposta il parametro max_tokens per evitare che il modello generi risposte inutilmente lunghe. Se hai bisogno di una risposta in una frase, limita l'output a 100 token anziché lasciare il modello libero di scrivere paragrafi interi.
  • Monitora i consumi e imposta avvisi di spesa. Usa la dashboard del provider o strumenti di terze parti come Helicone per tracciare il consumo di token per endpoint, modello e utente. Imposta limiti di spesa rigidi per prevenire costi fuori controllo causati da bug o picchi di traffico imprevisti.
  • Valuta i modelli open-source per volumi elevati. Modelli self-hosted come Llama 4 (Meta), Mistral Small o DeepSeek V3.2 non hanno costi per token. Provider hosted come Groq e Together AI offrono inferenza Llama 4 e DeepSeek a 0,11-0,50 $ per milione di token. A volumi molto alti (milioni di richieste al giorno), il self-hosting può essere 5-10 volte più economico delle API commerciali.

Domande frequenti sui token AI e i costi delle API

Quanti token ci sono in 1.000 parole di testo italiano?

Circa 1.500-1.700 token. In italiano il rapporto è meno favorevole rispetto all'inglese (dove 1.000 parole corrispondono a circa 1.333 token) perché i tokenizer dei modelli AI sono stati addestrati prevalentemente su testi in inglese. Le parole italiane più lunghe e la maggiore complessità morfologica causano una suddivisione in più sotto-token. Ad esempio, 'assicurazione' potrebbe essere scomposta in 3-4 token, mentre parole brevi come 'il' o 'con' restano un singolo token. Il codice e i testi con molti caratteri speciali tendono a usare ancora più token.

Perché i token di output costano più di quelli di input?

I token di output costano 3-5 volte di più a causa del funzionamento interno degli LLM. I token di input vengono elaborati in un singolo passaggio (forward pass), con tutti i token calcolati in parallelo. I token di output, invece, devono essere generati uno alla volta in modo sequenziale: ogni nuovo token richiede un passaggio separato attraverso il modello. Questa generazione sequenziale è molto più dispendiosa in termini di calcolo e memoria GPU. Ad esempio, Claude Sonnet 4.6 addebita 3 $ per milione di token di input ma 15 $ per milione di token di output -- un rapporto 5:1.

Qual è il modello AI più economico per le API nel 2026?

A marzo 2026, i modelli API più economici per provider sono: Amazon Nova Micro (0,035 $/0,14 $ per 1M token), GPT-5 Nano (0,05 $/0,40 $), Gemini 2.0 Flash-Lite (0,075 $/0,30 $), Mistral Small (0,10 $/0,30 $), GPT-4.1 Nano (0,10 $/0,40 $), Llama 4 Scout via Groq (0,11 $/0,34 $), Grok 4.1 Fast (0,20 $/0,50 $) e DeepSeek V3.2 (0,28 $/0,42 $). Per budget intermedi: Gemini 2.5 Flash (0,30 $/2,50 $), GPT-4.1 Mini (0,40 $/1,60 $), Claude Haiku 4.5 (1 $/5 $), o4-mini (1,10 $/4,40 $). Per le massime prestazioni: GPT-5 (1,25 $/10 $), GPT-4.1 (2 $/8 $), Claude Sonnet 4.6 (3 $/15 $), Grok 4 (3 $/15 $), Claude Opus 4.6 (5 $/25 $). La scelta migliore dipende dai requisiti qualitativi dell'applicazione.

Come funziona il prompt caching e quanto si risparmia?

Il prompt caching memorizza i vettori chiave-valore dei prefissi di prompt ripetuti (come i prompt di sistema) in modo che non debbano essere ricalcolati ad ogni richiesta. I token memorizzati nella cache vengono fatturati al 10-50% della tariffa standard. Per le applicazioni che inviano lo stesso prompt di sistema ad ogni richiesta -- chatbot, assistenti alla programmazione, processori di documenti -- il prompt caching può ridurre i costi totali di input fino al 90%. OpenAI lo applica automaticamente, mentre Anthropic e Google richiedono una configurazione esplicita.

I testi in italiano costano di più rispetto all'inglese con le API AI?

Sì, tipicamente il 20-35% in più. I testi italiani generano più token rispetto alla stessa informazione scritta in inglese, perché i tokenizer BPE si basano su dati di addestramento a predominanza anglofona. Parole italiane lunghe come 'commercializzazione' o 'sottoscrizione' vengono suddivise in più token. Anche le lettere accentate (à, è, ù) possono generare token aggiuntivi. Chi sviluppa applicazioni AI per il mercato italiano dovrebbe considerare questo sovrapprezzo nella pianificazione dei costi.

Qual è la differenza tra token e parole?

Una parola è un'unità linguistica separata da spazi. Un token è un'unità definita dal tokenizer del modello: può essere una parola intera, parte di una parola, un singolo carattere o un segno di punteggiatura. Parole comuni come 'il' o 'che' sono di solito un token. Parole più lunghe o meno frequenti vengono suddivise in più token: 'incredibile' potrebbe diventare 'in', 'cred', 'ibile' (3 token). Numeri, codice e testo non inglese richiedono generalmente più token per parola, motivo per cui la fatturazione basata sui token non corrisponde direttamente al conteggio delle parole.

Quanto costa elaborare un documento di 10.000 parole con GPT?

Un documento di 10.000 parole italiane corrisponde a circa 15.000-17.000 token di input (la stima è superiore rispetto all'inglese). Con GPT-4.1 (2,00 $ per 1M token di input), il costo del solo input è circa 0,030-0,034 $. Se il modello genera un riassunto di 500 parole (circa 750-850 token di output a 8,00 $ per 1M), il costo dell'output è circa 0,006 $. Costo totale per documento: circa 0,036-0,040 $ (meno di 0,04 EUR). Elaborare 1.000 documenti simili costerebbe circa 36-40 EUR. Con il più economico GPT-4.1 mini, la stessa operazione costa circa 0,008 $ per documento -- circa 5 volte meno.

Come si confrontano i prezzi di GPT, Claude e Gemini nel 2026?

A marzo 2026 (input/output per 1M token): Budget -- Amazon Nova Micro 0,035 $/0,14 $, GPT-5 Nano 0,05 $/0,40 $, Gemini 2.0 Flash-Lite 0,075 $/0,30 $, Mistral Small 0,10 $/0,30 $, GPT-4.1 Nano 0,10 $/0,40 $, Llama 4 Scout via Groq 0,11 $/0,34 $, Grok 4.1 Fast 0,20 $/0,50 $, DeepSeek V3.2 0,28 $/0,42 $. Fascia media -- GPT-5 Mini 0,25 $/2,00 $, Gemini 2.5 Flash 0,30 $/2,50 $, GPT-4.1 Mini 0,40 $/1,60 $, Claude Haiku 4.5 1 $/5 $, o4-mini 1,10 $/4,40 $. Premium -- Gemini 2.5 Pro 1,25 $/10 $, GPT-5 1,25 $/10 $, GPT-4.1 2 $/8 $, GPT-5.4 2,50 $/15 $, Claude Sonnet 4.6 3 $/15 $, Grok 4 3 $/15 $, Claude Opus 4.6 5 $/25 $. Rispetto al 2024, i prezzi sono calati di circa l'80%.

Quali modelli AI sono i migliori per programmazione, ragionamento e scrittura creativa?

Programmazione: Claude Opus 4.6 e Claude Sonnet 4.6 (Anthropic) sono leader nei benchmark per il codice, seguiti da GPT-5.4 e GPT-4.1 (OpenAI). Codestral di Mistral è specializzato per il codice a un costo contenuto (0,30 $/0,90 $ per 1M token). Ragionamento: o3 e o4-mini (OpenAI) usano il chain-of-thought reasoning, DeepSeek R1 (0,55 $/2,19 $) è l'alternativa open-source più forte, Gemini 2.5 Pro (Google) eccelle nell'analisi complessa. Scrittura creativa: Claude Sonnet 4.6 bilancia qualità e costo, GPT-4o gestisce input multimodali. Per volumi elevati a basso costo: DeepSeek V3.2, Amazon Nova Micro, Mistral Small e Llama 4 via Groq offrono i prezzi per token più bassi.


Glossario dei termini chiave

Token

L'unità minima di testo elaborata da un modello linguistico AI. Un token può essere una parola, parte di una parola, un carattere o un segno di punteggiatura. La maggior parte delle parole italiane corrisponde a 1-2 token.

Tokenizer (Tokenizzatore)

L'algoritmo che converte il testo grezzo in token. Modelli diversi usano tokenizer differenti (es. tiktoken per OpenAI, SentencePiece per Google), il che significa che lo stesso testo può avere conteggi di token diversi a seconda del provider.

BPE (Byte Pair Encoding)

L'algoritmo di tokenizzazione più diffuso nei modelli AI moderni. Costruisce un vocabolario unendo iterativamente le coppie di caratteri o sotto-parole più frequenti nel corpus di addestramento. GPT, Claude, Llama e DeepSeek utilizzano varianti di BPE.

Finestra di contesto (Context Window)

Il numero massimo di token che un modello può elaborare in una singola richiesta, inclusi input e output. Le finestre di contesto variano da 128K a 2M token a seconda del modello: GPT-4.1 supporta 1M, Claude Opus 4.6 supporta 1M, Grok 4.1 Fast supporta 2M e Gemini 2.5 Pro fino a 1M token.

Prompt caching

Una tecnica di ottimizzazione dei costi che memorizza e riutilizza i vettori chiave-valore calcolati per le porzioni ripetute dei prompt, riducendo sia la latenza che i costi dei token di input fino al 90% per la parte memorizzata nella cache.

Token di input vs. token di output

I token di input sono i token contenuti nel prompt inviato al modello. I token di output sono quelli generati dal modello nella risposta. I token di output costano 3-5 volte di più a causa del calcolo sequenziale necessario per generare ciascuno di essi.

Costo per milione di token

L'unità di prezzo standard per le API dei modelli linguistici. I provider indicano i prezzi come dollari per 1 milione di token (scritto come $/1M token), separatamente per input e output.