Question 1

中文的 token 消耗為甚麼比英文多？實際多幾多？

Accepted Answer

主流 LLM 的 BPE（Byte Pair Encoding）分詞器以英文語料為主進行訓練，英文單詞能被高效地壓縮為 1 至 2 個 token。但繁體中文字符在 UTF-8 編碼中佔 3 至 4 個位元組，分詞器的詞彙表中缺乏足夠的中文條目，因此需要將漢字拆分為更小的位元組單位來處理。實測結果顯示，同一段內容以中文表達，token 數量約為英文的 1.5 至 2 倍。例如「你好嗎」可能消耗 4 至 6 個 token，而其英文對應「How are you」只需 3 個 token。這意味着使用中文提示的 API 費用天然地比英文高出 50% 至 100%。

Question 2

1,000 個 token 相當於幾多個中文字？

Accepted Answer

以繁體中文計算，1,000 個 token 約等於 500 至 700 個漢字。具體數量視乎文字內容：常用字較多的日常對話可達 650 至 700 字，而專業術語密集的法律或醫學文本可能只有 450 至 550 字。相比之下，1,000 個 token 可處理約 750 個英文單詞。這意味着同等資訊量的中文處理成本約為英文的 1.5 至 2 倍。

Question 3

2026 年最平價的 AI 模型 API 有邊啲？

Accepted Answer

截至 2026 年 3 月，各供應商最平價的選擇包括：入門級——Amazon Nova Micro（US$0.035 / US$0.14 每百萬 token）、GPT-5 Nano（US$0.05 / US$0.40）、Gemini 2.0 Flash-Lite（US$0.075 / US$0.30）、Mistral Small（US$0.10 / US$0.30）、GPT-4.1 Nano（US$0.10 / US$0.40）、Groq 託管的 Llama 4 Scout（US$0.11 / US$0.34）、Grok 4.1 Fast（US$0.20 / US$0.50）、DeepSeek V3.2（US$0.28 / US$0.42）。中階——Gemini 2.5 Flash（US$0.30 / US$2.50）、GPT-4.1 mini（US$0.40 / US$1.60）、Mistral Medium 3（US$0.40 / US$2.00）、Claude Haiku 4.5（US$1 / US$5）。旗艦級——Gemini 2.5 Pro（US$1.25 / US$10）、GPT-4.1（US$2 / US$8）、Claude Sonnet 4.6（US$3 / US$15）、Grok 4（US$3 / US$15）、Claude Opus 4.6（US$5 / US$25）。開源模型（Llama 4、DeepSeek V3.2、Mistral Small）透過 Groq 或 Together AI 託管，可低至 US$0.11 每百萬 token。

Question 4

提示緩存（Prompt Caching）如何幫助降低費用？

Accepted Answer

提示緩存是一種成本優化技術，它將重複發送的提示前綴（如系統提示）的計算結果儲存起來，避免每次請求都重新運算。緩存命中的 token 費用僅為正常輸入單價的 10% 至 50%，視乎供應商而定。以一個每日處理 5,000 次請求的客服機器人為例，若系統提示佔 500 token，啟用緩存後每月可節省約 US$180（約 HK$1,404）的輸入費用。OpenAI 會自動為 1,024 token 以上的相同前綴啟用緩存，Anthropic 需手動配置 cache_control，而 Google 則透過 Context Caching 功能提供類似機制。

Question 5

如何在發送 API 請求前準確計算 token 數量？

Accepted Answer

主要有三種方法。第一，使用 OpenAI 的 tiktoken Python 函式庫（import tiktoken; encoding = tiktoken.encoding_for_model('gpt-4'); len(encoding.encode(text))）。第二，使用線上 token 計算工具——例如我們上方的工具——貼入文字即可即時查看 token 數量。第三，使用近似值估算：英文每 4 個字元約 1 個 token（1,333 token / 1,000 字），繁體中文每個漢字約 1.5 至 2 個 token。在生產環境中，建議使用程式化方法或 API 回覆中的 usage 欄位來獲取精確數據。

Question 6

輸入 token 和輸出 token 的價格為甚麼不同？

Accepted Answer

輸入 token 的處理是將所有 token 一次性並行通過模型，計算效率高。而輸出 token 必須逐個生成——每產生一個新 token 就需要進行一次完整的前向推理運算，對 GPU 算力的需求遠高於輸入處理。因此，輸出 token 的單價通常是輸入的 3 至 5 倍。以 Claude Sonnet 4.6 為例，輸入每百萬 token 收費 US$3，輸出則高達 US$15。這意味着在成本優化時，控制輸出長度的效果比縮減輸入更為顯著。

Question 7

HK$1,000 的預算可以使用幾多 LLM API？

Accepted Answer

HK$1,000 約等於 US$128，具體可用量取決於模型選擇。以 GPT-4.1 mini（US$0.40 / US$1.60 每百萬 token）計算，此預算可處理約 3.2 億個輸入 token 或約 8,000 萬個輸出 token——對大多數中小型項目綽綽有餘。以中文 token 效率換算，約可處理 1.8 億個中文字的輸入。若使用旗艦級的 Claude Opus 4.6（US$5 / US$25），同樣預算只能處理約 2,560 萬個輸入 token。透過 Groq 託管的 Llama 4（US$0.11 / 百萬 token），預算則可延伸至超過 11 億個 token。因此，根據任務需求選擇合適的模型，是充分利用預算的關鍵。

Question 8

圖片和檔案輸入會消耗幾多 token？

Accepted Answer

會。使用支援視覺功能的模型（如 GPT-4o 或 Gemini）時，圖片會根據解像度轉換為 token。以 GPT-4o 為例，一張 1024x1024 的圖片約消耗 765 個 token，計算方式是將圖片分割為 512 像素的區塊（每區塊 170 token）再加上 85 個基礎 token。高解像度模式的消耗會更多。PDF 和其他檔案通常先轉換為文字，再按正常方式計算 token。使用多模態功能時務必將圖片 token 納入成本預算，以免超支。

Token 計算機

$0.01

$1.05

$31.50

$383.25

從文字估算 token 數

Token 計算機。AI token 數量估算及 LLM 模型 API 成本計算。

甚麼是 AI Token 計算機？了解 LLM API 的計費單位

如何計算 AI Token 費用？逐步教學

AI Token 費用計算公式

AI Token 費用計算實例：香港應用場景

中英雙語客服聊天機器人：每月 50,000 次對話

法律文件摘要系統：每日 200 份合約

初創團隊 AI 編程助手：10 位開發者

降低 AI API Token 費用的實用策略

AI Token 及定價常見問題

中文的 token 消耗為甚麼比英文多？實際多幾多？

1,000 個 token 相當於幾多個中文字？

2026 年最平價的 AI 模型 API 有邊啲？

提示緩存（Prompt Caching）如何幫助降低費用？

如何在發送 API 請求前準確計算 token 數量？

輸入 token 和輸出 token 的價格為甚麼不同？

HK$1,000 的預算可以使用幾多 LLM API？

圖片和檔案輸入會消耗幾多 token？

AI Token 相關術語

Token（詞元）

分詞器（Tokenizer）

BPE（位元組對編碼）

上下文窗口（Context Window）

提示緩存（Prompt Caching）

輸入 / 輸出 Token

每百萬 Token 費用

資料來源與參考文獻