Token 計算機
計算使用 AI 語言模型的成本。從文字估算 token 數量,並比較 GPT-4、Claude 和 Gemini 等模型的定價。
甚麼是 AI Token 計算機?了解 LLM API 的計費單位
如何計算 AI Token 費用?逐步教學
AI Token 費用計算公式
- = 單次 API 調用的總費用(美元)
- = 輸入 token 數量(提示、系統指令及上下文的總和)
- = 輸出 token 數量(模型生成的回覆)
- = 所選模型的每百萬輸入 token 單價(美元)
- = 所選模型的每百萬輸出 token 單價(美元)
AI Token 費用計算實例:香港應用場景
中英雙語客服聊天機器人:每月 50,000 次對話
法律文件摘要系統:每日 200 份合約
初創團隊 AI 編程助手:10 位開發者
降低 AI API Token 費用的實用策略
- 按任務複雜度選擇合適的模型。簡單的分類、提取、翻譯任務使用輕量模型即可——GPT-4.1 mini、Gemini 2.5 Flash-Lite、Claude Haiku、DeepSeek V3.2、Grok 4.1 Fast、Amazon Nova Micro、Mistral Small 都是高性價比的選擇。將旗艦模型(GPT-5.4、GPT-4.1、Claude Sonnet/Opus、Gemini 2.5 Pro、Grok 4、Mistral Large)留給真正需要高水準推理的任務。透過「模型路由」策略,整體成本可減少 40% 至 60%。
- 善用提示緩存(Prompt Caching)。如果你的應用每次請求都發送相同的系統提示或上下文,提示緩存可將輸入 token 費用降低最多 90%。OpenAI 會自動應用緩存,Anthropic 則需在請求中加入 cache_control 標頭。對於每日數千次請求的場景,單靠緩存每月便可節省數千港元。
- 善用中英雙語的優勢。香港用戶的獨特優勢在於中英文皆通。將系統提示和輸出格式指令以英文撰寫,可減少 30% 至 50% 的 token 消耗,同時讓模型以中文回覆用戶。這種「英文指令 + 中文輸出」的混合策略是香港團隊特有的成本優化手段。
- 利用 Batch API 處理非即時任務。OpenAI 和 Anthropic 提供的批量處理 API 可享 50% 折扣。適用於報告生成、數據分析、批量翻譯等不需要即時回覆的任務。將夜間閒置時段用於批量處理,是控制預算的有效方法。
- 嚴格限制輸出 token 數量。設定 max_tokens 參數,防止模型生成過長的回覆。由於輸出 token 的單價是輸入的 3 至 5 倍,縮短輸出長度是最直接的節省途徑。在提示中加入「請以 100 字以內回答」等指令,可有效控制輸出。
- 精簡提示內容。每一個 token 都要花錢。刪除冗餘的系統指令、不必要的上下文和重複資訊。一段精心設計的 500 token 提示,往往比冗長的 2,000 token 提示效果更佳——而且便宜 75%。
- 監控用量並設定預算上限。使用供應商的用量儀表板或第三方工具(如 Helicone)追蹤每個端點、每個模型和每個用戶的 token 消耗。設定硬性支出限額,防止程式錯誤或流量突增導致費用失控。
AI Token 及定價常見問題
中文的 token 消耗為甚麼比英文多?實際多幾多?
主流 LLM 的 BPE(Byte Pair Encoding)分詞器以英文語料為主進行訓練,英文單詞能被高效地壓縮為 1 至 2 個 token。但繁體中文字符在 UTF-8 編碼中佔 3 至 4 個位元組,分詞器的詞彙表中缺乏足夠的中文條目,因此需要將漢字拆分為更小的位元組單位來處理。實測結果顯示,同一段內容以中文表達,token 數量約為英文的 1.5 至 2 倍。例如「你好嗎」可能消耗 4 至 6 個 token,而其英文對應「How are you」只需 3 個 token。這意味着使用中文提示的 API 費用天然地比英文高出 50% 至 100%。
1,000 個 token 相當於幾多個中文字?
以繁體中文計算,1,000 個 token 約等於 500 至 700 個漢字。具體數量視乎文字內容:常用字較多的日常對話可達 650 至 700 字,而專業術語密集的法律或醫學文本可能只有 450 至 550 字。相比之下,1,000 個 token 可處理約 750 個英文單詞。這意味着同等資訊量的中文處理成本約為英文的 1.5 至 2 倍。
2026 年最平價的 AI 模型 API 有邊啲?
截至 2026 年 3 月,各供應商最平價的選擇包括:入門級——Amazon Nova Micro(US$0.035 / US$0.14 每百萬 token)、GPT-5 Nano(US$0.05 / US$0.40)、Gemini 2.0 Flash-Lite(US$0.075 / US$0.30)、Mistral Small(US$0.10 / US$0.30)、GPT-4.1 Nano(US$0.10 / US$0.40)、Groq 託管的 Llama 4 Scout(US$0.11 / US$0.34)、Grok 4.1 Fast(US$0.20 / US$0.50)、DeepSeek V3.2(US$0.28 / US$0.42)。中階——Gemini 2.5 Flash(US$0.30 / US$2.50)、GPT-4.1 mini(US$0.40 / US$1.60)、Mistral Medium 3(US$0.40 / US$2.00)、Claude Haiku 4.5(US$1 / US$5)。旗艦級——Gemini 2.5 Pro(US$1.25 / US$10)、GPT-4.1(US$2 / US$8)、Claude Sonnet 4.6(US$3 / US$15)、Grok 4(US$3 / US$15)、Claude Opus 4.6(US$5 / US$25)。開源模型(Llama 4、DeepSeek V3.2、Mistral Small)透過 Groq 或 Together AI 託管,可低至 US$0.11 每百萬 token。
提示緩存(Prompt Caching)如何幫助降低費用?
提示緩存是一種成本優化技術,它將重複發送的提示前綴(如系統提示)的計算結果儲存起來,避免每次請求都重新運算。緩存命中的 token 費用僅為正常輸入單價的 10% 至 50%,視乎供應商而定。以一個每日處理 5,000 次請求的客服機器人為例,若系統提示佔 500 token,啟用緩存後每月可節省約 US$180(約 HK$1,404)的輸入費用。OpenAI 會自動為 1,024 token 以上的相同前綴啟用緩存,Anthropic 需手動配置 cache_control,而 Google 則透過 Context Caching 功能提供類似機制。
如何在發送 API 請求前準確計算 token 數量?
主要有三種方法。第一,使用 OpenAI 的 tiktoken Python 函式庫(import tiktoken; encoding = tiktoken.encoding_for_model('gpt-4'); len(encoding.encode(text)))。第二,使用線上 token 計算工具——例如我們上方的工具——貼入文字即可即時查看 token 數量。第三,使用近似值估算:英文每 4 個字元約 1 個 token(1,333 token / 1,000 字),繁體中文每個漢字約 1.5 至 2 個 token。在生產環境中,建議使用程式化方法或 API 回覆中的 usage 欄位來獲取精確數據。
輸入 token 和輸出 token 的價格為甚麼不同?
輸入 token 的處理是將所有 token 一次性並行通過模型,計算效率高。而輸出 token 必須逐個生成——每產生一個新 token 就需要進行一次完整的前向推理運算,對 GPU 算力的需求遠高於輸入處理。因此,輸出 token 的單價通常是輸入的 3 至 5 倍。以 Claude Sonnet 4.6 為例,輸入每百萬 token 收費 US$3,輸出則高達 US$15。這意味着在成本優化時,控制輸出長度的效果比縮減輸入更為顯著。
HK$1,000 的預算可以使用幾多 LLM API?
HK$1,000 約等於 US$128,具體可用量取決於模型選擇。以 GPT-4.1 mini(US$0.40 / US$1.60 每百萬 token)計算,此預算可處理約 3.2 億個輸入 token 或約 8,000 萬個輸出 token——對大多數中小型項目綽綽有餘。以中文 token 效率換算,約可處理 1.8 億個中文字的輸入。若使用旗艦級的 Claude Opus 4.6(US$5 / US$25),同樣預算只能處理約 2,560 萬個輸入 token。透過 Groq 託管的 Llama 4(US$0.11 / 百萬 token),預算則可延伸至超過 11 億個 token。因此,根據任務需求選擇合適的模型,是充分利用預算的關鍵。
圖片和檔案輸入會消耗幾多 token?
會。使用支援視覺功能的模型(如 GPT-4o 或 Gemini)時,圖片會根據解像度轉換為 token。以 GPT-4o 為例,一張 1024x1024 的圖片約消耗 765 個 token,計算方式是將圖片分割為 512 像素的區塊(每區塊 170 token)再加上 85 個基礎 token。高解像度模式的消耗會更多。PDF 和其他檔案通常先轉換為文字,再按正常方式計算 token。使用多模態功能時務必將圖片 token 納入成本預算,以免超支。
AI Token 相關術語
Token(詞元)
LLM 處理文字的最小單位。可以是一個完整的英文單詞、一個詞根、一個字元或標點符號。英文中大部份常見單詞為 1 至 2 個 token,而一個繁體中文字通常消耗 1.5 至 2 個 token。
分詞器(Tokenizer)
將原始文字轉換為 token 序列的演算法。不同模型使用不同的分詞器——OpenAI 使用 tiktoken、Google 使用 SentencePiece、Anthropic 使用自有分詞器——因此相同的文字在不同模型中可能產生不同的 token 數量。
BPE(位元組對編碼)
Byte Pair Encoding 的縮寫,是目前最主流的分詞演算法。透過反覆合併最常出現的字元對來建立詞彙表,令常見的文字片段可被高效壓縮。GPT、Claude、Gemini、Llama 等主流模型均採用 BPE 或其變體。
上下文窗口(Context Window)
模型在單次請求中可處理的最大 token 總數(包括輸入和輸出)。不同模型的上下文窗口差異很大:GPT-4.1 支援 100 萬 token、Claude Opus 4.6 支援 100 萬 token、Grok 4.1 Fast 支援 200 萬 token、Gemini 2.5 Pro 支援 100 萬 token。
提示緩存(Prompt Caching)
一種成本優化功能,將重複發送的提示前綴(如系統指令)的運算結果儲存並重用,令緩存命中的 token 費用降低 50% 至 90%,同時減少回應延遲。
輸入 / 輸出 Token
輸入 token 是你發送給模型的提示中的 token 數量;輸出 token 是模型生成的回覆中的 token 數量。由於生成過程需要逐一運算,輸出 token 的單價通常為輸入的 3 至 5 倍。
每百萬 Token 費用
LLM API 的標準定價單位。供應商以「每百萬 token 幾多美元」來標示價格,輸入和輸出分開計算。例如「US$3 / 1M input」即表示每處理 100 萬個輸入 token 收費 3 美元。
