Smart Calculators

Smart

Calculators

Token 計算機

計算使用 AI 語言模型的成本。從文字估算 token 數量,並比較 GPT-4、Claude 和 Gemini 等模型的定價。

Token 計算機。AI token 數量估算及 LLM 模型 API 成本計算。
Token 計算機可估算文字中的 token 數量,並計算 GPT、Claude、Gemini、Grok 及 DeepSeek 等 AI 模型的 API 成本。它以大約每 4 個字元 1 個 token 的標準比例將文字長度轉換為 token,然後套用各模型每百萬 token 的定價,即時顯示輸入和輸出費用。

甚麼是 AI Token 計算機?了解 LLM API 的計費單位

AI Token 計算機是一款線上工具,用來估算文字提示(prompt)的 token 數量,並計算透過 GPT、Claude、Gemini、Grok、DeepSeek、Mistral、Llama 等大型語言模型(LLM)API 處理該文字的費用。Token 是 AI 模型讀取和生成文字時的最小處理單位——可以是一個完整的英文單詞、一個詞根、一個字元,甚至一個標點符號。
對於正在開發 AI 應用的香港開發者和初創企業而言,掌握 token 的運作原理是控制 API 成本的第一步。每次調用 LLM API 時,平台會根據輸入 token(你的提示)和輸出 token(模型的回覆)分別計費。單一請求的費用或許只是幾仙(港幣),但當每日處理數千甚至數百萬次請求時,token 成本便會成為營運預算的重要一環。
一般而言,1 個 token 大約等於 4 個英文字元或 0.75 個英文單詞,即 1,000 個英文單詞約需 1,333 個 token。然而,繁體中文的情況截然不同——由於主流 LLM 的 BPE 分詞器主要以英文語料訓練,中文字符的編碼效率較低。實測數據顯示,同一段文字以中文表達,token 消耗量約為英文的 1.5 至 2 倍。換言之,使用中文提示的 API 費用天然地比英文高出 50% 至 100%,這對以中文為主要語言的香港用戶尤其重要。

如何計算 AI Token 費用?逐步教學

要計算一次 LLM API 調用的費用,你需要三項資料:輸入 token 數量、輸出 token 數量,以及所選模型的每百萬 token 單價。
以下是逐步計算方法:
1. 估算輸入 token 數量。將你的提示文字貼入 token 計算工具,或使用近似值:英文每 4 個字元約 1 個 token(每 1,000 字約 1,333 token);繁體中文則每個漢字約消耗 1.5 至 2 個 token。
2. 估算輸出 token 數量。這取決於模型回覆的預期長度。簡短回答可能是 100 至 300 個 token;詳細的中文解釋則可達 1,000 至 2,000 個 token。
3. 查閱模型的定價。AI 供應商通常以「每百萬 token 幾多美元」來標示費率,輸入和輸出的價格分開計算。
4. 套用以下的費用公式。
舉個實際例子:你向 Claude Sonnet 4.6(輸入 US$3 / 百萬 token,輸出 US$15 / 百萬 token)發送一段 2,000 token 的中文提示,收到 500 token 的回覆。費用計算為 (2,000 / 1,000,000 x US$3) + (500 / 1,000,000 x US$15) = US$0.006 + US$0.0075 = US$0.0135,折合約 HK$0.105。若每日發送 10,000 次請求,月費約為 HK$31,500。
輸出 token 通常比輸入 token 貴 3 至 5 倍,原因是模型生成每個輸出 token 都需要逐一進行前向推理運算,而所有輸入 token 可以一次性並行處理。這種計算上的不對稱性,正是供應商對輸出收取更高費用的原因。

AI Token 費用計算公式

C=Tin×Pin1,000,000+Tout×Pout1,000,000C = \frac{T_{in} \times P_{in}}{1{,}000{,}000} + \frac{T_{out} \times P_{out}}{1{,}000{,}000}
  • CC = 單次 API 調用的總費用(美元)
  • TinT_{in} = 輸入 token 數量(提示、系統指令及上下文的總和)
  • ToutT_{out} = 輸出 token 數量(模型生成的回覆)
  • PinP_{in} = 所選模型的每百萬輸入 token 單價(美元)
  • PoutP_{out} = 所選模型的每百萬輸出 token 單價(美元)
計算每月總費用時,需要將單次費用乘以每日請求量:
Cmonthly=(Tin×Pin+Tout×Pout1,000,000)×R×30C_{monthly} = \left(\frac{T_{in} \times P_{in} + T_{out} \times P_{out}}{1{,}000{,}000}\right) \times R \times 30
其中 $R$ 為每日 API 請求次數。
繁體中文文字的 token 數量估算方法如下:一般漢字每字約 1.5 至 2 個 token,常用字(如「的」、「是」、「了」)效率較高,約 1 至 1.5 個 token,而罕見字或專業術語可能消耗 2 至 3 個 token。英數字、標點符號則與英文相同,約每個單詞 1 個 token。以實用估算公式表示:
TzhLzh×1.75T_{zh} \approx L_{zh} \times 1.75
其中 $Lzh$ 為中文字數。若你的應用同時使用中英文混合提示(這在香港極為常見),可分別估算中文和英文部份的 token 數量再相加。
若使用提示緩存(Prompt Caching),緩存命中的輸入 token 可享 50% 至 90% 的折扣,對於重複發送相同系統提示的應用場景能顯著降低成本。

AI Token 費用計算實例:香港應用場景

中英雙語客服聊天機器人:每月 50,000 次對話

一間香港電商平台部署了 GPT-4.1 mini(輸入 US$0.40 / 百萬 token,輸出 US$1.60 / 百萬 token)驅動的客服聊天機器人。由於顧客查詢以中文為主,每次對話平均輸入 1,200 token(系統提示 400 token + 中文客戶訊息 800 token),輸出 600 token(中文回覆)。每月 50,000 次對話。
輸入費用:50,000 x 1,200 / 1,000,000 x US$0.40 = US$24.00 輸出費用:50,000 x 600 / 1,000,000 x US$1.60 = US$48.00 每月總費用:US$72.00(約 HK$562)
若改用 Claude Sonnet 4.6(US$3 / US$15 每百萬 token),同樣工作量的月費將約 US$630(約 HK$4,914)——貴了近 9 倍。對於處理常見客戶查詢的場景,輕量級模型的性價比遠優於旗艦模型。利用提示緩存處理重複的系統提示,還可再節省約 15% 的輸入費用。

法律文件摘要系統:每日 200 份合約

一間香港律師事務所使用 Gemini 3 Flash(輸入 US$0.50 / 百萬 token,輸出 US$3.00 / 百萬 token)來自動摘要商業合約。每份合約平均 5,000 個中文字(約 8,750 token),摘要約 500 個中文字(約 875 token)。每個工作日處理 200 份。
每日輸入費用:200 x 8,750 / 1,000,000 x US$0.50 = US$0.875 每日輸出費用:200 x 875 / 1,000,000 x US$3.00 = US$0.525 每日總費用:US$1.40 | 每月總費用(22 個工作日):US$30.80(約 HK$240)
若改用 Claude Opus 4.6(US$5 / US$25 每百萬 token)以獲取更高品質的摘要,月費將增至約 US$580(約 HK$4,524)——貴約 19 倍。對於標準化的合約摘要任務,先以平價模型試行、再按需升級至旗艦模型,是最明智的策略。

初創團隊 AI 編程助手:10 位開發者

一間位於數碼港的香港初創公司為 10 位開發者配備了 Claude Sonnet 4.6(輸入 US$3 / 百萬 token,輸出 US$15 / 百萬 token)驅動的 AI 編程助手。每位開發者每日約發送 30 次請求,每次請求平均 3,000 輸入 token(程式碼上下文 + 英文提問)和 1,000 輸出 token(程式碼建議 + 解釋)。
每日請求總數:10 x 30 = 300 每日輸入費用:300 x 3,000 / 1,000,000 x US$3.00 = US$2.70 每日輸出費用:300 x 1,000 / 1,000,000 x US$15.00 = US$4.50 每日總費用:US$7.20 | 每月總費用(22 個工作日):US$158.40(約 HK$1,236)
即每位開發者每月約 HK$124——還不到一杯精品咖啡的日常開銷。考慮到 AI 編程助手帶來的生產力提升,這是極具回報的投資。由於編程提示多為英文,token 效率也比純中文場景高出 40% 至 50%。

降低 AI API Token 費用的實用策略

  • 按任務複雜度選擇合適的模型。簡單的分類、提取、翻譯任務使用輕量模型即可——GPT-4.1 mini、Gemini 2.5 Flash-Lite、Claude Haiku、DeepSeek V3.2、Grok 4.1 Fast、Amazon Nova Micro、Mistral Small 都是高性價比的選擇。將旗艦模型(GPT-5.4、GPT-4.1、Claude Sonnet/Opus、Gemini 2.5 Pro、Grok 4、Mistral Large)留給真正需要高水準推理的任務。透過「模型路由」策略,整體成本可減少 40% 至 60%。
  • 善用提示緩存(Prompt Caching)。如果你的應用每次請求都發送相同的系統提示或上下文,提示緩存可將輸入 token 費用降低最多 90%。OpenAI 會自動應用緩存,Anthropic 則需在請求中加入 cache_control 標頭。對於每日數千次請求的場景,單靠緩存每月便可節省數千港元。
  • 善用中英雙語的優勢。香港用戶的獨特優勢在於中英文皆通。將系統提示和輸出格式指令以英文撰寫,可減少 30% 至 50% 的 token 消耗,同時讓模型以中文回覆用戶。這種「英文指令 + 中文輸出」的混合策略是香港團隊特有的成本優化手段。
  • 利用 Batch API 處理非即時任務。OpenAI 和 Anthropic 提供的批量處理 API 可享 50% 折扣。適用於報告生成、數據分析、批量翻譯等不需要即時回覆的任務。將夜間閒置時段用於批量處理,是控制預算的有效方法。
  • 嚴格限制輸出 token 數量。設定 max_tokens 參數,防止模型生成過長的回覆。由於輸出 token 的單價是輸入的 3 至 5 倍,縮短輸出長度是最直接的節省途徑。在提示中加入「請以 100 字以內回答」等指令,可有效控制輸出。
  • 精簡提示內容。每一個 token 都要花錢。刪除冗餘的系統指令、不必要的上下文和重複資訊。一段精心設計的 500 token 提示,往往比冗長的 2,000 token 提示效果更佳——而且便宜 75%。
  • 監控用量並設定預算上限。使用供應商的用量儀表板或第三方工具(如 Helicone)追蹤每個端點、每個模型和每個用戶的 token 消耗。設定硬性支出限額,防止程式錯誤或流量突增導致費用失控。

AI Token 及定價常見問題

中文的 token 消耗為甚麼比英文多?實際多幾多?

主流 LLM 的 BPE(Byte Pair Encoding)分詞器以英文語料為主進行訓練,英文單詞能被高效地壓縮為 1 至 2 個 token。但繁體中文字符在 UTF-8 編碼中佔 3 至 4 個位元組,分詞器的詞彙表中缺乏足夠的中文條目,因此需要將漢字拆分為更小的位元組單位來處理。實測結果顯示,同一段內容以中文表達,token 數量約為英文的 1.5 至 2 倍。例如「你好嗎」可能消耗 4 至 6 個 token,而其英文對應「How are you」只需 3 個 token。這意味着使用中文提示的 API 費用天然地比英文高出 50% 至 100%。

1,000 個 token 相當於幾多個中文字?

以繁體中文計算,1,000 個 token 約等於 500 至 700 個漢字。具體數量視乎文字內容:常用字較多的日常對話可達 650 至 700 字,而專業術語密集的法律或醫學文本可能只有 450 至 550 字。相比之下,1,000 個 token 可處理約 750 個英文單詞。這意味着同等資訊量的中文處理成本約為英文的 1.5 至 2 倍。

2026 年最平價的 AI 模型 API 有邊啲?

截至 2026 年 3 月,各供應商最平價的選擇包括:入門級——Amazon Nova Micro(US$0.035 / US$0.14 每百萬 token)、GPT-5 Nano(US$0.05 / US$0.40)、Gemini 2.0 Flash-Lite(US$0.075 / US$0.30)、Mistral Small(US$0.10 / US$0.30)、GPT-4.1 Nano(US$0.10 / US$0.40)、Groq 託管的 Llama 4 Scout(US$0.11 / US$0.34)、Grok 4.1 Fast(US$0.20 / US$0.50)、DeepSeek V3.2(US$0.28 / US$0.42)。中階——Gemini 2.5 Flash(US$0.30 / US$2.50)、GPT-4.1 mini(US$0.40 / US$1.60)、Mistral Medium 3(US$0.40 / US$2.00)、Claude Haiku 4.5(US$1 / US$5)。旗艦級——Gemini 2.5 Pro(US$1.25 / US$10)、GPT-4.1(US$2 / US$8)、Claude Sonnet 4.6(US$3 / US$15)、Grok 4(US$3 / US$15)、Claude Opus 4.6(US$5 / US$25)。開源模型(Llama 4、DeepSeek V3.2、Mistral Small)透過 Groq 或 Together AI 託管,可低至 US$0.11 每百萬 token。

提示緩存(Prompt Caching)如何幫助降低費用?

提示緩存是一種成本優化技術,它將重複發送的提示前綴(如系統提示)的計算結果儲存起來,避免每次請求都重新運算。緩存命中的 token 費用僅為正常輸入單價的 10% 至 50%,視乎供應商而定。以一個每日處理 5,000 次請求的客服機器人為例,若系統提示佔 500 token,啟用緩存後每月可節省約 US$180(約 HK$1,404)的輸入費用。OpenAI 會自動為 1,024 token 以上的相同前綴啟用緩存,Anthropic 需手動配置 cache_control,而 Google 則透過 Context Caching 功能提供類似機制。

如何在發送 API 請求前準確計算 token 數量?

主要有三種方法。第一,使用 OpenAI 的 tiktoken Python 函式庫(import tiktoken; encoding = tiktoken.encoding_for_model('gpt-4'); len(encoding.encode(text)))。第二,使用線上 token 計算工具——例如我們上方的工具——貼入文字即可即時查看 token 數量。第三,使用近似值估算:英文每 4 個字元約 1 個 token(1,333 token / 1,000 字),繁體中文每個漢字約 1.5 至 2 個 token。在生產環境中,建議使用程式化方法或 API 回覆中的 usage 欄位來獲取精確數據。

輸入 token 和輸出 token 的價格為甚麼不同?

輸入 token 的處理是將所有 token 一次性並行通過模型,計算效率高。而輸出 token 必須逐個生成——每產生一個新 token 就需要進行一次完整的前向推理運算,對 GPU 算力的需求遠高於輸入處理。因此,輸出 token 的單價通常是輸入的 3 至 5 倍。以 Claude Sonnet 4.6 為例,輸入每百萬 token 收費 US$3,輸出則高達 US$15。這意味着在成本優化時,控制輸出長度的效果比縮減輸入更為顯著。

HK$1,000 的預算可以使用幾多 LLM API?

HK$1,000 約等於 US$128,具體可用量取決於模型選擇。以 GPT-4.1 mini(US$0.40 / US$1.60 每百萬 token)計算,此預算可處理約 3.2 億個輸入 token 或約 8,000 萬個輸出 token——對大多數中小型項目綽綽有餘。以中文 token 效率換算,約可處理 1.8 億個中文字的輸入。若使用旗艦級的 Claude Opus 4.6(US$5 / US$25),同樣預算只能處理約 2,560 萬個輸入 token。透過 Groq 託管的 Llama 4(US$0.11 / 百萬 token),預算則可延伸至超過 11 億個 token。因此,根據任務需求選擇合適的模型,是充分利用預算的關鍵。

圖片和檔案輸入會消耗幾多 token?

會。使用支援視覺功能的模型(如 GPT-4o 或 Gemini)時,圖片會根據解像度轉換為 token。以 GPT-4o 為例,一張 1024x1024 的圖片約消耗 765 個 token,計算方式是將圖片分割為 512 像素的區塊(每區塊 170 token)再加上 85 個基礎 token。高解像度模式的消耗會更多。PDF 和其他檔案通常先轉換為文字,再按正常方式計算 token。使用多模態功能時務必將圖片 token 納入成本預算,以免超支。


AI Token 相關術語

Token(詞元)

LLM 處理文字的最小單位。可以是一個完整的英文單詞、一個詞根、一個字元或標點符號。英文中大部份常見單詞為 1 至 2 個 token,而一個繁體中文字通常消耗 1.5 至 2 個 token。

分詞器(Tokenizer)

將原始文字轉換為 token 序列的演算法。不同模型使用不同的分詞器——OpenAI 使用 tiktoken、Google 使用 SentencePiece、Anthropic 使用自有分詞器——因此相同的文字在不同模型中可能產生不同的 token 數量。

BPE(位元組對編碼)

Byte Pair Encoding 的縮寫,是目前最主流的分詞演算法。透過反覆合併最常出現的字元對來建立詞彙表,令常見的文字片段可被高效壓縮。GPT、Claude、Gemini、Llama 等主流模型均採用 BPE 或其變體。

上下文窗口(Context Window)

模型在單次請求中可處理的最大 token 總數(包括輸入和輸出)。不同模型的上下文窗口差異很大:GPT-4.1 支援 100 萬 token、Claude Opus 4.6 支援 100 萬 token、Grok 4.1 Fast 支援 200 萬 token、Gemini 2.5 Pro 支援 100 萬 token。

提示緩存(Prompt Caching)

一種成本優化功能,將重複發送的提示前綴(如系統指令)的運算結果儲存並重用,令緩存命中的 token 費用降低 50% 至 90%,同時減少回應延遲。

輸入 / 輸出 Token

輸入 token 是你發送給模型的提示中的 token 數量;輸出 token 是模型生成的回覆中的 token 數量。由於生成過程需要逐一運算,輸出 token 的單價通常為輸入的 3 至 5 倍。

每百萬 Token 費用

LLM API 的標準定價單位。供應商以「每百萬 token 幾多美元」來標示價格,輸入和輸出分開計算。例如「US$3 / 1M input」即表示每處理 100 萬個輸入 token 收費 3 美元。