Token 計算機
計算使用 AI 語言模型的成本,從文字估算 token 數量,並比較 GPT-4、Claude、Gemini 等模型的計費。
$
$
每次請求成本
$0.01
輸入: $0.0030 · 輸出: $0.0075
每日成本
$1.05
100 每日請求次數
每月成本
$31.50
30 天
年度成本
$383.25
365 天
從文字估算 token 數
Token 計算器。估算 GPT、Claude、Gemini 等 LLM 的 token 數與 API 費用。
什麼是 AI Token 計算器?為什麼台灣開發者需要它?
如何計算 LLM API 費用?
AI Token 費用計算公式
- = 單次 API 呼叫的總成本(USD)
- = input token 數(system prompt、使用者輸入、對話歷史、RAG context)
- = output token 數(模型回覆生成的 token)
- = input 每百萬 token 的單價(USD/1M tokens)
- = output 每百萬 token 的單價(USD/1M tokens)
Token 費用試算實例:台灣 SaaS 與工程團隊情境
中文客服機器人:每月 50,000 次對話
iThome 鐵人賽參賽者:自架文件問答 RAG 30 天
20 人開發團隊用 Claude Code:月帳單試算
降低 LLM API 成本的實戰技巧
- 依任務難度分流模型。簡單分類、抽取、摘要用便宜模型(GPT-5 Nano、GPT-4.1 Nano、Gemini 2.5 Flash-Lite、Claude Haiku 4.5、DeepSeek V3.2、Amazon Nova Micro);複雜推理才呼叫旗艦(GPT-5、Claude Sonnet/Opus 4.6、Gemini 2.5 Pro、Grok 4)。混合 routing 可省 40% 到 60%。
- 啟用 prompt caching。固定的 system prompt 與長 context 適合放在 prompt 開頭,OpenAI 自動快取、Anthropic 需要明確標 cache_control header。Anthropic 官方資料顯示快取命中可省 90% input 成本、降低 80% latency,對於 RAG 與聊天機器人尤其有感。
- 非即時工作用 Batch API。OpenAI 和 Anthropic 的 batch 模式打 5 折,適合報表生成、批量文件處理、向量化管線。台灣常見場景:每天凌晨跑客戶資料 enrichment、自動產生 SEO 描述。
- 繁體中文 prompt 越精簡越好。中文每個字約等於 2 到 3 個 token(cl100k_base 編碼),冗長的「請你扮演一位專業的⋯⋯」開場就吃掉 30 到 50 個 token,乘上每月幾十萬次呼叫就是看得見的錢。把 system prompt 改寫成英文也是省錢手段(英文 token 密度高約 50%),但要小心模型對中文 in-context 範例的理解力。
- 限制 max_tokens。output 比 input 貴 3 到 5 倍,沒設上限就讓模型講廢話。確認需求後務必設 max_tokens,分類任務 30、回覆 200、長解說 800 都比預設 4,096 划算。
- 監控用量、設定預算告警。OpenAI 與 Anthropic 平台都有 daily limit 設定;台灣團隊也可串 Helicone、Langfuse、OpenLIT 等第三方工具,依 endpoint、模型、user 拆分用量。建議在月度預算的 50%、80%、100% 各設一個 webhook 通知,免得一個 bug 把錢燒光。
- 高用量場景考慮自架開源模型。Llama 4、Mistral Small、DeepSeek V3.2 完全免授權費,Groq、Together AI、Atlas Cloud 等代管服務的價格在 $0.11 到 $0.50/M tokens,台灣的開發者也可在自家 GCP/AWS Tokyo region 自建 vLLM 服務。日呼叫量上百萬時自架可能比 API 便宜 5 到 10 倍,但要把 GPU、運維、SLA 成本算進去。
- 解讀月度帳單時別忘了匯率與發票。OpenAI、Anthropic 都以 USD 結算,刷信用卡會有約 1.5% 海外手續費;如果走台灣公司報帳要注意境外電子勞務稅率(5% 加值營業稅,由買方代繳),財務同仁通常會請你提供 invoice 與用量明細。
Token 與 LLM API 費用常見問題
繁體中文 1,000 字會被切成多少 token?
用 OpenAI 的 cl100k_base(GPT-3.5、GPT-4 系列)或 o200k_base(GPT-4o、GPT-5)編碼實測,繁體中文每 1,000 字約 1,800 到 2,000 token——也就是 1 個中文字約 1.8 到 2.0 token。常用字(我、的、是、台、灣)通常 1 token,較生僻字或專有名詞會被拆成 2 到 3 個 byte 的 token。比較英文:1,000 字英文只要約 1,333 token。同樣的服務,繁體中文使用者的 API 成本大約比英文使用者多 40% 到 50%。
為什麼 output token 比 input token 貴 3 到 5 倍?
因為生成方式不同。Input 可以一次平行運算所有 token(一次 forward pass 就完成),output 則必須一個 token、一個 token 序列產生,每個新 token 都要再跑一次完整的 forward pass,計算量與 GPU 記憶體頻寬都遠高於 input。所以 Claude Sonnet 4.6 是 input $3、output $15(5:1);GPT-4.1 是 $2 / $8(4:1)。設計 prompt 時,能用 input 帶過的就別讓模型輸出,例如「給我 1-10 的分數」就比「請詳細說明分析過程並給出評分」省 90% 的 output 成本。
2026 年最便宜的 LLM API 是哪一家?
依 2026 年 3 月公告,每百萬 token(input/output)最便宜的依序是:Amazon Nova Micro($0.035/$0.14)、OpenAI GPT-5 Nano($0.05/$0.40)、Google Gemini 2.0 Flash-Lite($0.075/$0.30)、Mistral Small($0.10/$0.30)、GPT-4.1 Nano($0.10/$0.40)、Llama 4 Scout 經 Groq($0.11/$0.34)、xAI Grok 4.1 Fast($0.20/$0.50)、DeepSeek V3.2($0.28/$0.42)。中階性價比代表是 Gemini 2.5 Flash($0.30/$2.50)、GPT-4.1 Mini($0.40/$1.60)、Claude Haiku 4.5($1/$5)。「最便宜」要看任務難度配對:分類抽取用 Nova Micro/Flash-Lite,需要中文邏輯推理用 Claude Haiku 或 GPT-4.1 Mini 比較穩。
Prompt caching 對台灣場景的省錢效果有多大?
對於有重複 context 的應用(聊天機器人、知識庫問答、長 system prompt),效果非常明顯。Anthropic 的快取讀取單價只要 input 原價的 10%、寫入快取只是 1.25 倍,5 分鐘內第二次呼叫就能回本。OpenAI 自動套用 prompt caching 不需設定,但 Anthropic 與 Google 需要明確標 cache_control。實務上:5,000 token 的 RAG 系統 prompt + 文件 chunk,啟用快取後 input 從 5,000 × $3 = $0.015 降到 5,000 × $0.30 = $0.0015,省 90%。對中文 RAG(同樣語意 token 數較多)省下的絕對金額更可觀。
怎麼在送 API 前先精準算出 token 數?
三種主流做法。第一,用 OpenAI 的 tiktoken(Python:import tiktoken; enc = tiktoken.encoding_for_model("gpt-4o"); len(enc.encode(text)))或 JavaScript 套件 gpt-tokenizer。Anthropic 提供 anthropic.messages.count_tokens API,Google 有 client.count_tokens()。第二,用上方的 Token 計算器,貼上文字立刻看到 GPT、Claude、Gemini 的 token 數比較。第三,用粗估值(中文 1.8–2 token/字、英文 0.25 token/字),快速心算。生產系統建議走第一種,每 1,000 次呼叫的誤差不會超過 1%。
Token 和「字」、「字元」、「詞」差在哪?
詞(word)是人類語言的單位,token 是 BPE/SentencePiece 演算法切出來的單位,可能是整個英文單字、子詞、一個中文字、單一標點。常見英文字「the」、「is」是 1 token;長字「unbelievable」會被切成「un」、「believ」、「able」三個 token。繁體中文「你好」可能是 2 token、「人工智慧」可能是 2 到 4 token,視前後文與訓練語料而定。所以 token 不會等於字數,更不會等於字元數,這也是 LLM 計價無法簡單對應「我寫了多少字」的原因。
處理一份 5,000 字的繁體中文文件大約要多少錢?
5,000 字繁體中文約 9,000 到 10,000 token(取 1 字 ≈ 1.9 token)。用 GPT-4.1(input $2/M、output $8/M)讀這份文件、產一份 500 字摘要(約 950 token output),單次成本約 $0.026(input)+ $0.008(output)= $0.034,約新台幣 1.1 元。每天處理 1,000 份就是 $34(新台幣 1,070 元)/日、$1,020(新台幣 32,200 元)/月。改用 GPT-4.1 Mini 月費降到 $204(新台幣 6,440 元),是文件處理 pipeline 的常見選擇。
圖片或檔案會吃 token 嗎?多模態怎麼算?
會。視覺模型(GPT-4o、Gemini、Claude 3.5 Sonnet)會把圖片切 patch 編碼成 token。GPT-4o 處理一張 1024×1024 的圖約 765 token:拆成 4 個 512px tile(每 tile 170 token)+ 基底 85 token;high detail 模式會多倍計費,low detail 約固定 85 token。Gemini 對圖片每張固定 258 token、Claude 視解析度約 500 到 1,500 token。PDF 通常先 OCR 或抽文字後再丟入 prompt,跟一般文字一樣計費。語音則是另套計費(OpenAI Whisper 是按分鐘)。
Token 計算器免費嗎?資料會被儲存嗎?
完全免費、不需要註冊、沒有使用次數限制。所有 token 計算都在瀏覽器端完成,輸入的文字不會送到我們的伺服器、不會被記錄、也不會用於任何訓練。對於放心貼公司內部 prompt、客戶資料 prefix、未公開 system prompt 都很合適。如果要在自動化 pipeline 中持續計算,可以直接整合 OpenAI tiktoken(Python)或 gpt-tokenizer(JavaScript)等開源套件,在地端執行。
Claude、GPT、Gemini 三家 2026 年定價怎麼比?
依 2026 年 3 月公告(USD/1M tokens,input/output):頂規方案——Claude Opus 4.6($5/$25)、GPT-5.4($2.50/$15)、Gemini 2.5 Pro($1.25/$10)。標準方案——Claude Sonnet 4.6($3/$15)、GPT-5($1.25/$10)、Gemini 3 Flash($0.50/$3.00)。經濟方案——Claude Haiku 4.5($1/$5)、GPT-4.1 Mini($0.40/$1.60)、Gemini 2.5 Flash($0.30/$2.50)。極省方案——GPT-5 Nano($0.05/$0.40)、GPT-4.1 Nano($0.10/$0.40)、Gemini 2.5 Flash-Lite($0.10/$0.40)。Anthropic 沒有 Nano 等級的超低價方案,但 Claude 系列在 prompt caching 後(90% 折扣)的中長文件處理常常反而最划算。實作建議:先用 Token 計算器把候選模型的單次成本算出來,再評估品質落差是否值得價差。
Token 與 LLM 計費名詞
Token(詞元)
LLM 處理文字的最小單位,由 tokenizer 演算法決定。可能是一個英文單字、子詞、一個中文字、一個標點或單字節。LLM API 計費的計量單位。
Tokenizer(分詞器)
把文字切成 token 的演算法。OpenAI 用 tiktoken(cl100k_base、o200k_base),Google 用 SentencePiece,Anthropic 用自家 BPE,同一段文字在不同 tokenizer 下 token 數會不一樣。
BPE(Byte Pair Encoding)
目前主流 LLM 使用的 tokenization 演算法,從字元開始反覆合併最常出現的 pair,建立子詞詞彙表。GPT、Claude、Llama 都是 BPE 變體。
Context Window(上下文視窗)
模型一次能處理的 token 上限(input 加 output)。GPT-4.1 與 Claude Sonnet 4.6 為 1M token、Gemini 2.5 Pro 為 1M token、Grok 4.1 Fast 為 2M token。對長文件 RAG 與大型程式碼庫尤其關鍵。
Prompt Caching(提示詞快取)
把重複的 prompt 前綴 KV 向量快取起來,下次請求若前綴相同就不用重新計算,可降低 latency 與 input 成本最多 90%。Anthropic 與 Google 需要明確設定 cache_control,OpenAI 自動啟用。
Input vs. Output Tokens
Input token 是你送給模型的提示詞,output 是模型生成的回覆。Output 因為要序列生成、計算量大,價格通常是 input 的 3 到 5 倍。
Cost per Million Tokens(每百萬 token 單價)
LLM API 通用的計價單位,寫成 $/1M tokens,input 與 output 分開報價。換算公式:實際成本 = 使用 token 數 ÷ 1,000,000 × 單價。
Batch API
OpenAI 與 Anthropic 對非即時工作提供的批次處理 API,價格約為即時 API 的 50%,但回應時效在數小時到 24 小時內,適合報表、向量化、bulk 摘要等情境。
參考資料與來源
內容由 Smart Calculators 團隊審核驗證