Smart Calculators

Smart

Calculators

Token 計算機

計算使用 AI 語言模型的成本,從文字估算 token 數量,並比較 GPT-4、Claude、Gemini 等模型的計費。

$

$

每次請求成本

$0.01

輸入: $0.0030 · 輸出: $0.0075

每日成本

$1.05

100 每日請求次數

每月成本

$31.50

30 天

年度成本

$383.25

365 天

從文字估算 token 數

Token 計算器。估算 GPT、Claude、Gemini 等 LLM 的 token 數與 API 費用。

Token 計算器會算出文字會被 LLM 切成多少 token,再依 GPT、Claude、Gemini、DeepSeek 等模型的每百萬 token 單價,分別算出 input 與 output 的 USD 費用。輸入英文約以 1 token ≈ 4 字元、繁體中文約以 1 token ≈ 0.5 個字估算,協助開發者控管 OpenAI Anthropic Google API 的成本。

什麼是 AI Token 計算器?為什麼台灣開發者需要它?

AI Token 計算器是用來估算一段提示詞會消耗多少 token、再依模型單價推算 API 費用的工具,支援 OpenAI GPT、Anthropic Claude、Google Gemini、xAI Grok、DeepSeek、Mistral 與 Meta Llama 等主流 LLM。Token 是模型把文字切成的最小單位,可能是一個英文單字、一段子詞、一個中文字或一個標點,是 LLM API 計費的基準。
對台灣的後端工程師、SaaS 創辦人或是在公司內部導入 AI 工作流的人來說,token 數量就等於每月雲端帳單的金額。每一次 API 呼叫都會分別計算「input tokens」(你的 system prompt、使用者輸入、對話歷史、RAG 檢索結果)和「output tokens」(模型回覆),兩者單價不同,output 通常比 input 貴 3 到 5 倍。一個原型測試只要幾分美金,但拉到正式生產(每天 1 萬到 10 萬次呼叫)就可能變成新台幣 30,000 到 300,000 元的月費。
針對繁體中文場景還有一個特別重要的成本陷阱:tiktoken 的 cl100k_base 與 o200k_base 編碼是以英文語料為主訓練的,繁體中文每個字大約對應 2 到 3 個 token,常用字(我、的、是)才落在 1 token。實測顯示同樣語意的訊息,繁體中文版會比英文版多耗 40% 到 100% 的 token——也就是同樣一份服務,台灣使用者的 API 帳單可能會比英文使用者貴一倍。先用 Token 計算器把這層成本看清楚,才能合理估算定價、制定 prompt 策略,避免上線後發現毛利被吃光。

如何計算 LLM API 費用?

計算單次 API 呼叫的成本只需要三項資料:input token 數、output token 數,以及該模型的每百萬 token 單價。
計算步驟如下:
1. 估算 input token 數。把 system prompt、使用者輸入、對話歷史、RAG 檢索結果通通丟進上方的 Token 計算器,或用粗估值——英文約 1 token ≈ 4 字元(每千字英文約 250 token),繁體中文約 1 token ≈ 0.5 個字(每千字中文約 1,800 到 2,000 token)。
2. 估算 output token 數。短回覆 100 到 300 token,長解說 1,000 到 2,000 token,程式碼或 JSON 格式請另抓 30% 到 50% 的緩衝。
3. 查模型單價。各家官網都標示「每百萬 token 美元」(USD/1M tokens),input 與 output 是分開計價,部分模型還有快取(cached)價格大約是原 input 的 10% 到 50%。
4. 套用費用公式(見下節)。
以實例示範:用 Claude Sonnet 4.6(input $3、output $15 / 1M tokens)跑一次 RAG 問答,input 2,000 token、output 500 token——單次成本 = (2,000 ÷ 1,000,000 × $3) + (500 ÷ 1,000,000 × $15) = $0.006 + $0.0075 = $0.0135,約新台幣 0.43 元(以 1 USD = 31.6 TWD 換算)。每天 10,000 次呼叫,月費就是 $4,050(約新台幣 12.8 萬元)。改用 GPT-4.1 mini($0.40/$1.60)只要 $720(新台幣 2.3 萬),但回答品質會略降。
上方的 Token 計算器會把這四步合併在一個介面:把文字貼進去,自動同步切出 GPT、Claude、Gemini 多家 token 數,並用最新單價算出單次與每月成本,省去手動查 pricing page 的時間。

AI Token 費用計算公式

C=Tin×Pin1,000,000+Tout×Pout1,000,000C = \frac{T_{in} \times P_{in}}{1{,}000{,}000} + \frac{T_{out} \times P_{out}}{1{,}000{,}000}
  • CC = 單次 API 呼叫的總成本(USD)
  • TinT_{in} = input token 數(system prompt、使用者輸入、對話歷史、RAG context)
  • ToutT_{out} = output token 數(模型回覆生成的 token)
  • PinP_{in} = input 每百萬 token 的單價(USD/1M tokens)
  • PoutP_{out} = output 每百萬 token 的單價(USD/1M tokens)
推估每月成本時,把單次成本乘上每日呼叫數與當月天數:
Cmonthly=(Tin×Pin+Tout×Pout1,000,000)×R×30C_{monthly} = \left(\frac{T_{in} \times P_{in} + T_{out} \times P_{out}}{1{,}000{,}000}\right) \times R \times 30
其中 R 是每日 API 呼叫次數。如果有用 prompt caching(OpenAI、Anthropic、Google 都有支援),快取命中的 input token 會以原價的 10% 到 50% 計費——把長 system prompt 或固定文件放在 prompt 開頭最划算,Anthropic 的測試指出可省下高達 90% 的 input 成本,並把 latency 降低 80%。實際估算時請把 input 拆成「快取部分」與「未快取部分」,分別套不同單價。Batch API(OpenAI、Anthropic)對非即時工作可再打 5 折,整段 ETL 跑批時建議啟用。

Token 費用試算實例:台灣 SaaS 與工程團隊情境

中文客服機器人:每月 50,000 次對話

一家台灣電商在官網部署 AI 客服,使用 GPT-4.1 mini(input $0.40、output $1.60 / 1M tokens)。每次對話平均 input 800 token(system prompt 200 + 使用者繁中問題 200 + 對話歷史 400)、output 400 token。
Input 成本:50,000 × 800 ÷ 1,000,000 × $0.40 = $16.00 Output 成本:50,000 × 400 ÷ 1,000,000 × $1.60 = $32.00 月費合計:$48.00(約新台幣 1,520 元)
啟用 prompt caching 後,固定的 200 token system prompt 可享 50% 折扣,input 成本降到約 $13,每月省 $3。如果改用 Claude Sonnet 4.6($3/$15)追求中文回應品質,月費會跳到 $1,020(約新台幣 32,000 元)——約 21 倍。模型選擇是 SaaS 毛利的最大槓桿。

iThome 鐵人賽參賽者:自架文件問答 RAG 30 天

一位開發者在 iThome 鐵人賽 30 天挑戰中要做一個技術文件 RAG 系統,每天測試 200 次查詢。每次 input 4,000 token(檢索回來的 3 段文件 + 提問)、output 600 token。模型選 Gemini 2.5 Flash(input $0.30、output $2.50 / 1M tokens),同時開 1M context。
每日 input:200 × 4,000 ÷ 1,000,000 × $0.30 = $0.24 每日 output:200 × 600 ÷ 1,000,000 × $2.50 = $0.30 單日成本:$0.54 | 30 天:$16.20(約新台幣 510 元)
預算極小、context 又夠塞整本文件,是個人開發者跑實驗的甜蜜點。若改用 GPT-4o($2.50/$10)品質會略好但月費跳到約 $114(新台幣 3,600 元),21 倍價差不一定有 21 倍的回答品質提升——RAG 的瓶頸通常在檢索而非生成模型。

20 人開發團隊用 Claude Code:月帳單試算

一家台北的軟體公司給 20 位工程師導入 Claude Code(背後是 Claude Sonnet 4.6,$3/$15),每位工程師每天約 40 次請求,平均 input 2,500 token、output 800 token。
每日請求:20 × 40 = 800 每日 input:800 × 2,500 ÷ 1,000,000 × $3.00 = $6.00 每日 output:800 × 800 ÷ 1,000,000 × $15.00 = $9.60 每日合計:$15.60 月費(22 個工作天):$343.20(約新台幣 10,850 元)
換算每位工程師每月 $17.16(約新台幣 540 元),相當於每週一杯星巴克。Anthropic 對重複的 codebase context 有 prompt caching,可再省 15% 到 25%。值得注意:直接用 API 計費通常比訂閱 Claude Pro($20/月,新台幣約 640 元)划算,但 Claude Code 訂閱版($200/月)對重度使用者反而便宜——超過每月 60 次以上深度任務就要算清楚。

降低 LLM API 成本的實戰技巧

  • 依任務難度分流模型。簡單分類、抽取、摘要用便宜模型(GPT-5 Nano、GPT-4.1 Nano、Gemini 2.5 Flash-Lite、Claude Haiku 4.5、DeepSeek V3.2、Amazon Nova Micro);複雜推理才呼叫旗艦(GPT-5、Claude Sonnet/Opus 4.6、Gemini 2.5 Pro、Grok 4)。混合 routing 可省 40% 到 60%。
  • 啟用 prompt caching。固定的 system prompt 與長 context 適合放在 prompt 開頭,OpenAI 自動快取、Anthropic 需要明確標 cache_control header。Anthropic 官方資料顯示快取命中可省 90% input 成本、降低 80% latency,對於 RAG 與聊天機器人尤其有感。
  • 非即時工作用 Batch API。OpenAI 和 Anthropic 的 batch 模式打 5 折,適合報表生成、批量文件處理、向量化管線。台灣常見場景:每天凌晨跑客戶資料 enrichment、自動產生 SEO 描述。
  • 繁體中文 prompt 越精簡越好。中文每個字約等於 2 到 3 個 token(cl100k_base 編碼),冗長的「請你扮演一位專業的⋯⋯」開場就吃掉 30 到 50 個 token,乘上每月幾十萬次呼叫就是看得見的錢。把 system prompt 改寫成英文也是省錢手段(英文 token 密度高約 50%),但要小心模型對中文 in-context 範例的理解力。
  • 限制 max_tokens。output 比 input 貴 3 到 5 倍,沒設上限就讓模型講廢話。確認需求後務必設 max_tokens,分類任務 30、回覆 200、長解說 800 都比預設 4,096 划算。
  • 監控用量、設定預算告警。OpenAI 與 Anthropic 平台都有 daily limit 設定;台灣團隊也可串 Helicone、Langfuse、OpenLIT 等第三方工具,依 endpoint、模型、user 拆分用量。建議在月度預算的 50%、80%、100% 各設一個 webhook 通知,免得一個 bug 把錢燒光。
  • 高用量場景考慮自架開源模型。Llama 4、Mistral Small、DeepSeek V3.2 完全免授權費,Groq、Together AI、Atlas Cloud 等代管服務的價格在 $0.11 到 $0.50/M tokens,台灣的開發者也可在自家 GCP/AWS Tokyo region 自建 vLLM 服務。日呼叫量上百萬時自架可能比 API 便宜 5 到 10 倍,但要把 GPU、運維、SLA 成本算進去。
  • 解讀月度帳單時別忘了匯率與發票。OpenAI、Anthropic 都以 USD 結算,刷信用卡會有約 1.5% 海外手續費;如果走台灣公司報帳要注意境外電子勞務稅率(5% 加值營業稅,由買方代繳),財務同仁通常會請你提供 invoice 與用量明細。

Token 與 LLM API 費用常見問題

繁體中文 1,000 字會被切成多少 token?

用 OpenAI 的 cl100k_base(GPT-3.5、GPT-4 系列)或 o200k_base(GPT-4o、GPT-5)編碼實測,繁體中文每 1,000 字約 1,800 到 2,000 token——也就是 1 個中文字約 1.8 到 2.0 token。常用字(我、的、是、台、灣)通常 1 token,較生僻字或專有名詞會被拆成 2 到 3 個 byte 的 token。比較英文:1,000 字英文只要約 1,333 token。同樣的服務,繁體中文使用者的 API 成本大約比英文使用者多 40% 到 50%。

為什麼 output token 比 input token 貴 3 到 5 倍?

因為生成方式不同。Input 可以一次平行運算所有 token(一次 forward pass 就完成),output 則必須一個 token、一個 token 序列產生,每個新 token 都要再跑一次完整的 forward pass,計算量與 GPU 記憶體頻寬都遠高於 input。所以 Claude Sonnet 4.6 是 input $3、output $15(5:1);GPT-4.1 是 $2 / $8(4:1)。設計 prompt 時,能用 input 帶過的就別讓模型輸出,例如「給我 1-10 的分數」就比「請詳細說明分析過程並給出評分」省 90% 的 output 成本。

2026 年最便宜的 LLM API 是哪一家?

依 2026 年 3 月公告,每百萬 token(input/output)最便宜的依序是:Amazon Nova Micro($0.035/$0.14)、OpenAI GPT-5 Nano($0.05/$0.40)、Google Gemini 2.0 Flash-Lite($0.075/$0.30)、Mistral Small($0.10/$0.30)、GPT-4.1 Nano($0.10/$0.40)、Llama 4 Scout 經 Groq($0.11/$0.34)、xAI Grok 4.1 Fast($0.20/$0.50)、DeepSeek V3.2($0.28/$0.42)。中階性價比代表是 Gemini 2.5 Flash($0.30/$2.50)、GPT-4.1 Mini($0.40/$1.60)、Claude Haiku 4.5($1/$5)。「最便宜」要看任務難度配對:分類抽取用 Nova Micro/Flash-Lite,需要中文邏輯推理用 Claude Haiku 或 GPT-4.1 Mini 比較穩。

Prompt caching 對台灣場景的省錢效果有多大?

對於有重複 context 的應用(聊天機器人、知識庫問答、長 system prompt),效果非常明顯。Anthropic 的快取讀取單價只要 input 原價的 10%、寫入快取只是 1.25 倍,5 分鐘內第二次呼叫就能回本。OpenAI 自動套用 prompt caching 不需設定,但 Anthropic 與 Google 需要明確標 cache_control。實務上:5,000 token 的 RAG 系統 prompt + 文件 chunk,啟用快取後 input 從 5,000 × $3 = $0.015 降到 5,000 × $0.30 = $0.0015,省 90%。對中文 RAG(同樣語意 token 數較多)省下的絕對金額更可觀。

怎麼在送 API 前先精準算出 token 數?

三種主流做法。第一,用 OpenAI 的 tiktoken(Python:import tiktoken; enc = tiktoken.encoding_for_model("gpt-4o"); len(enc.encode(text)))或 JavaScript 套件 gpt-tokenizer。Anthropic 提供 anthropic.messages.count_tokens API,Google 有 client.count_tokens()。第二,用上方的 Token 計算器,貼上文字立刻看到 GPT、Claude、Gemini 的 token 數比較。第三,用粗估值(中文 1.8–2 token/字、英文 0.25 token/字),快速心算。生產系統建議走第一種,每 1,000 次呼叫的誤差不會超過 1%。

Token 和「字」、「字元」、「詞」差在哪?

詞(word)是人類語言的單位,token 是 BPE/SentencePiece 演算法切出來的單位,可能是整個英文單字、子詞、一個中文字、單一標點。常見英文字「the」、「is」是 1 token;長字「unbelievable」會被切成「un」、「believ」、「able」三個 token。繁體中文「你好」可能是 2 token、「人工智慧」可能是 2 到 4 token,視前後文與訓練語料而定。所以 token 不會等於字數,更不會等於字元數,這也是 LLM 計價無法簡單對應「我寫了多少字」的原因。

處理一份 5,000 字的繁體中文文件大約要多少錢?

5,000 字繁體中文約 9,000 到 10,000 token(取 1 字 ≈ 1.9 token)。用 GPT-4.1(input $2/M、output $8/M)讀這份文件、產一份 500 字摘要(約 950 token output),單次成本約 $0.026(input)+ $0.008(output)= $0.034,約新台幣 1.1 元。每天處理 1,000 份就是 $34(新台幣 1,070 元)/日、$1,020(新台幣 32,200 元)/月。改用 GPT-4.1 Mini 月費降到 $204(新台幣 6,440 元),是文件處理 pipeline 的常見選擇。

圖片或檔案會吃 token 嗎?多模態怎麼算?

會。視覺模型(GPT-4o、Gemini、Claude 3.5 Sonnet)會把圖片切 patch 編碼成 token。GPT-4o 處理一張 1024×1024 的圖約 765 token:拆成 4 個 512px tile(每 tile 170 token)+ 基底 85 token;high detail 模式會多倍計費,low detail 約固定 85 token。Gemini 對圖片每張固定 258 token、Claude 視解析度約 500 到 1,500 token。PDF 通常先 OCR 或抽文字後再丟入 prompt,跟一般文字一樣計費。語音則是另套計費(OpenAI Whisper 是按分鐘)。

Token 計算器免費嗎?資料會被儲存嗎?

完全免費、不需要註冊、沒有使用次數限制。所有 token 計算都在瀏覽器端完成,輸入的文字不會送到我們的伺服器、不會被記錄、也不會用於任何訓練。對於放心貼公司內部 prompt、客戶資料 prefix、未公開 system prompt 都很合適。如果要在自動化 pipeline 中持續計算,可以直接整合 OpenAI tiktoken(Python)或 gpt-tokenizer(JavaScript)等開源套件,在地端執行。

Claude、GPT、Gemini 三家 2026 年定價怎麼比?

依 2026 年 3 月公告(USD/1M tokens,input/output):頂規方案——Claude Opus 4.6($5/$25)、GPT-5.4($2.50/$15)、Gemini 2.5 Pro($1.25/$10)。標準方案——Claude Sonnet 4.6($3/$15)、GPT-5($1.25/$10)、Gemini 3 Flash($0.50/$3.00)。經濟方案——Claude Haiku 4.5($1/$5)、GPT-4.1 Mini($0.40/$1.60)、Gemini 2.5 Flash($0.30/$2.50)。極省方案——GPT-5 Nano($0.05/$0.40)、GPT-4.1 Nano($0.10/$0.40)、Gemini 2.5 Flash-Lite($0.10/$0.40)。Anthropic 沒有 Nano 等級的超低價方案,但 Claude 系列在 prompt caching 後(90% 折扣)的中長文件處理常常反而最划算。實作建議:先用 Token 計算器把候選模型的單次成本算出來,再評估品質落差是否值得價差。


Token 與 LLM 計費名詞

Token(詞元)

LLM 處理文字的最小單位,由 tokenizer 演算法決定。可能是一個英文單字、子詞、一個中文字、一個標點或單字節。LLM API 計費的計量單位。

Tokenizer(分詞器)

把文字切成 token 的演算法。OpenAI 用 tiktoken(cl100k_base、o200k_base),Google 用 SentencePiece,Anthropic 用自家 BPE,同一段文字在不同 tokenizer 下 token 數會不一樣。

BPE(Byte Pair Encoding)

目前主流 LLM 使用的 tokenization 演算法,從字元開始反覆合併最常出現的 pair,建立子詞詞彙表。GPT、Claude、Llama 都是 BPE 變體。

Context Window(上下文視窗)

模型一次能處理的 token 上限(input 加 output)。GPT-4.1 與 Claude Sonnet 4.6 為 1M token、Gemini 2.5 Pro 為 1M token、Grok 4.1 Fast 為 2M token。對長文件 RAG 與大型程式碼庫尤其關鍵。

Prompt Caching(提示詞快取)

把重複的 prompt 前綴 KV 向量快取起來,下次請求若前綴相同就不用重新計算,可降低 latency 與 input 成本最多 90%。Anthropic 與 Google 需要明確設定 cache_control,OpenAI 自動啟用。

Input vs. Output Tokens

Input token 是你送給模型的提示詞,output 是模型生成的回覆。Output 因為要序列生成、計算量大,價格通常是 input 的 3 到 5 倍。

Cost per Million Tokens(每百萬 token 單價)

LLM API 通用的計價單位,寫成 $/1M tokens,input 與 output 分開報價。換算公式:實際成本 = 使用 token 數 ÷ 1,000,000 × 單價。

Batch API

OpenAI 與 Anthropic 對非即時工作提供的批次處理 API,價格約為即時 API 的 50%,但回應時效在數小時到 24 小時內,適合報表、向量化、bulk 摘要等情境。


參考資料與來源

  1. Hugging Face — BPE 分詞技術解說
  2. OpenAI — API 定價
  3. Anthropic Claude — API 定價
  4. Anthropic Claude — Token 計數文件
  5. Google Gemini — API 定價

內容由 Smart Calculators 團隊審核驗證