Smart Calculators

Smart

Calculators

Token 计算器

计算使用 AI 语言模型的成本,从文本估算 token 数量,并比较 GPT-4、Claude、Gemini 等模型的计费。

$

$

每次请求成本

$0.01

输入: $0.0030 · 输出: $0.0075

每日成本

$1.05

100 每日请求次数

每月成本

$31.50

30 天

年度成本

$383.25

365 天

从文本估算 token 数

Token 计算器。GPT、Claude、DeepSeek 等大模型 token 数量与 API 费用在线估算。

Token 计算器按文本长度估算大模型输入与输出的 token 数量,并依据每百万 token 单价计算 API 调用费用。覆盖 OpenAI GPT、Anthropic Claude、Google Gemini、DeepSeek、通义千问、Kimi、豆包、智谱 GLM 等主流模型,输入输出分开计费,支持中英文混合文本。

什么是 token?为什么大模型按 token 收费

Token 是大语言模型(LLM)处理文本的最小单位,也是各家 API 计费的基本单位。一个 token 可以是一个汉字、一个英文单词、一个标点,或者一个英文单词的若干片段。OpenAI、Anthropic、Google、阿里云百炼、DeepSeek、月之暗面、字节火山引擎、智谱 AI 等服务商都以「每百万 token 多少元(或多少美元)」为单位标价,输入 token 和输出 token 通常分开计费,输出单价一般是输入的 3 到 5 倍。
中文 token 与英文 token 的换算并不一样。OpenAI 的 tiktoken 分词器以英文语料为主优化,1 个英文单词大约 1 至 2 token,1,000 token 约等于 750 个英文单词;但 1 个汉字常被切成 1.5 至 2 token,因此「同样意思的一段话,中文比英文贵 1.5 倍左右」是 ChatGPT API 用户的普遍体感。国产大模型针对中文做过专项优化:通义千问、文心一言、千帆等的分词器对中文友好,1 个汉字 ≈ 1 token;DeepSeek、Kimi、豆包也明显优于 OpenAI 在中文上的压缩率。这也是为什么处理大量中文语料时,开发者会优先考虑国产模型。
2026 年的大模型 API 已经进入「价格分化」阶段:OpenAI、Anthropic 守住高端推理与企业市场,Google Gemini 主打长上下文,国产模型(DeepSeek、Kimi、豆包、通义千问、智谱 GLM)则在用极致性价比抢开发者。豆包 Pro 32K 输入低至 0.0008 元/千 token,1 元能买大约 200 万汉字;DeepSeek V4 Flash 输入 0.14 美元/百万 token、输出 0.28 美元;Kimi K2.6 输入 0.95 美元/百万 token;通义千问 Qwen-Long 仅 0.5 元/百万 token;智谱 GLM-4-Flash 主流场景甚至免费。对于中国开发者来说,正确估算 token 已经不只是「看 OpenAI 账单」,而是「在十几款中外模型里挑性价比最高的那个」。

大模型 API 调用费用怎么算?四步估算法

API 调用费用 = 输入 token 数 × 输入单价 + 输出 token 数 × 输出单价。要算出一次调用、一天甚至一个月的成本,按以下四步走即可。
1. 估算输入 token 数。把 prompt(含 system prompt、对话历史、RAG 检索片段、用户当前问题)粘进上方计算器;如果手算,中文按「1 汉字 ≈ 1.5 token」(OpenAI 系)或「1 汉字 ≈ 1 token」(国产模型)估算,英文按「4 字符 ≈ 1 token」估算。
2. 估算输出 token 数。一段简短回答约 100–300 token;一段详细解释约 800–1,500 token;一篇 500 字的中文摘要约 800 token。可在 max_tokens 参数里硬性封顶。
3. 查找模型单价。所有主流厂商都按「每百万 token 多少元/美元」标价,且输入与输出价不同。例如 GPT-5 输入 1.25 美元、输出 10 美元;Claude Sonnet 4.6 输入 3 美元、输出 15 美元;DeepSeek V4 Flash 输入 0.14 美元、输出 0.28 美元;通义千问 Qwen-Plus 输入 0.8 元、输出 2 元;Kimi K2.6 输入 0.95 美元、输出 2.5 美元;豆包 Pro 32K 输入 0.0008 元/千 token,折合 0.8 元/百万 token。
4. 套公式相乘。例如用 Claude Sonnet 4.6 处理一次 2,000 token 的输入与 500 token 的输出,单次费用 = (2000 / 1,000,000) × 3 + (500 / 1,000,000) × 15 = 0.006 + 0.0075 = 0.0135 美元,约合 0.097 元人民币。每天 10,000 次调用即每月约 4,050 美元(约 29,000 元人民币);同样工作量换成 DeepSeek V4 Flash,月成本仅约 168 美元(约 1,200 元)。模型选型几乎是单笔账单上最大的杠杆。

大模型 API 费用计算公式

C=Tin×Pin1,000,000+Tout×Pout1,000,000C = \frac{T_{in} \times P_{in}}{1{,}000{,}000} + \frac{T_{out} \times P_{out}}{1{,}000{,}000}
  • CC = 单次 API 调用费用(美元或人民币,与单价单位一致)
  • TinT_{in} = 输入 token 数(system prompt + 对话历史 + 当前请求)
  • ToutT_{out} = 输出 token 数(模型生成的回答 / JSON / 代码)
  • PinP_{in} = 输入价格(每 1,000,000 token 的费率)
  • PoutP_{out} = 输出价格(每 1,000,000 token 的费率)
若按月规划预算,把单次费用乘以日调用量与天数即可:
Cmonthly=(Tin×Pin+Tout×Pout1,000,000)×R×30C_{monthly} = \left(\frac{T_{in} \times P_{in} + T_{out} \times P_{out}}{1{,}000{,}000}\right) \times R \times 30
其中 R 为日均请求数。
开启 prompt 缓存(OpenAI 自动、Anthropic 显式声明、阿里云百炼上下文缓存、Kimi/DeepSeek 自动命中)后,命中部分按基础输入价的 10%–50% 计费。Claude Sonnet 4.6 缓存命中是 0.3 美元/百万 token(输入 3 美元的 10%),DeepSeek V4 Flash 缓存命中低至 0.0028 美元/百万 token,Kimi K2.6 缓存命中按 16.9% 计费。如果 system prompt 与 RAG 上下文每次重复发送 2,000 token,开缓存可节省 70%–90% 的输入成本。Batch API(OpenAI、Anthropic、阿里云、Kimi)通常再给 50% 折扣,适合非实时报表、批量打标签、离线总结这类任务。

API 费用估算实例:中国开发者常见场景

中文客服机器人:每月 10 万次对话,DeepSeek 比 GPT 便宜多少

一家电商接入智能客服:每次对话含 system prompt 300 token、对话历史 500 token、用户问题约 200 token(中文 100 字),合计输入 1,000 token;机器人回答约 400 token(中文 250 字)。月调用量 100,000 次。
用 GPT-5 Mini(输入 0.25 美元、输出 2 美元/百万 token):输入费用 100,000 × 1000 / 1,000,000 × 0.25 = 25 美元;输出费用 100,000 × 400 / 1,000,000 × 2 = 80 美元;月成本 105 美元(约 750 元)。
换成 DeepSeek V4 Flash(输入 0.14、输出 0.28 美元):输入 14 美元、输出 11.2 美元,月成本 25.2 美元(约 180 元),便宜 76%。
再换成豆包 Pro 32K(输入 0.0008 元、输出 0.002 元每千 token):输入 100,000 × 1 × 0.0008 = 80 元;输出 100,000 × 0.4 × 0.002 = 80 元;月成本 160 元,介于 DeepSeek 与 GPT 之间,但本地化部署、合规友好。开 system prompt 缓存还能再省 30% 左右。

RAG 检索增强:每天总结 1,000 篇行业资讯

媒体团队搭建 RAG 系统,每天对 1,000 篇微信公众号文章生成摘要。每篇平均 3,000 token 输入(含 system prompt 500 token + 文章 2,500 token),输出摘要 300 token(约 200 中文字)。
通义千问 Qwen-Long(输入 0.5 元、输出 2 元/百万 token,专为长文本优化):日输入费用 1,000 × 3000 / 1,000,000 × 0.5 = 1.5 元;日输出 0.6 元;日均 2.1 元,月 63 元(约 9 美元)。
同样工作量换 Claude Opus 4.6(输入 5 美元、输出 25 美元/百万 token):日成本 17.25 美元(约 124 元),月约 3,720 元——是 Qwen-Long 的 59 倍。
开启阿里云上下文缓存后,重复的 system prompt 部分按缓存价计费,长期跑可再节省 15%–25%。结论:对中文长文本批量摘要这类任务,国产模型几乎是闭眼选。

代码助手:20 人团队每天 800 次调用

20 人开发团队接入 Claude Code 风格的编程助手:每人每天 40 次调用,每次输入 2,500 token(代码上下文 + 问题),输出 800 token(建议代码 + 解释)。
用 Claude Sonnet 4.6(输入 3、输出 15 美元/百万):日输入 800 × 2500 / 1,000,000 × 3 = 6 美元;日输出 800 × 800 / 1,000,000 × 15 = 9.6 美元;日 15.6 美元,月 343 美元(约 2,460 元),人均 123 元/月,比一杯星巴克便宜。
开启 5 分钟提示缓存(缓存命中 0.3 美元/百万)后,重复的项目上下文输入降至原价 10%,月成本可降到约 230 美元(约 1,650 元)。
如果团队对生成代码质量要求稍宽松,换成 Kimi K2.6(输入 0.95、输出 2.5 美元/百万),月成本仅约 100 美元(约 720 元),适合内网原型开发;但要注意 Kimi K2.6 输入价比 K2.5 上调了 58%,长期合同建议谈量价。

降低大模型 API 成本的实战建议

  • 按任务难度分流模型。简单的分类、抽取、关键词匹配交给 DeepSeek V4 Flash、豆包 Lite、Qwen-Turbo、Kimi K1、GPT-5 Nano、Gemini 2.5 Flash-Lite 这类 0.1–0.4 元/百万 token 区间的轻量模型;推理、复杂代码、长文创作再上 Claude Sonnet 4.6、GPT-5、Gemini 2.5 Pro、Qwen-Max。一个简单的「先小模型判断,必要时升级」的路由策略,往往能把账单砍掉 40%–60%。
  • 中文场景优先国产模型。OpenAI 的 tiktoken 对中文不友好,1 汉字常被切成 1.5–2 token;通义千问、千帆、DeepSeek、Kimi 的分词器对中文做过优化,同样的中文输入便宜 30%–50%。再叠加豆包、DeepSeek 的低单价,处理中文语料的总成本能压到 GPT 的 1/10 以下。
  • 把 system prompt 和重复上下文塞进缓存。OpenAI 自动缓存(命中 50% 折扣)、Claude 显式 cache_control(命中 10% 计费)、阿里云百炼上下文缓存、Kimi 自动缓存(命中 16.9%)、DeepSeek V4 缓存命中(命中价仅 0.0028 美元/百万 token)。RAG、客服、Code Copilot 这类反复发送同一段长 prompt 的应用,命中率超过 80% 是常态,输入成本可省 70%–90%。
  • 用 Batch API 处理离线任务。OpenAI、Anthropic、阿里云、Kimi 都提供 50% 左右折扣的批量接口,适合夜间报表、历史数据回填、批量打标签、离线翻译。一份原本要 1,000 元的批量任务,跑批量接口能压到 500 元甚至 400 元(Kimi 是 4 折)。
  • 压 prompt、压输出。把 system prompt 从 2,000 token 削到 500 token,输入费用立省 75%;用 max_tokens 限定输出长度(FAQ 答案设 200,代码片段设 600),避免模型啰嗦。中文项目把固定的 system 指令换成英文,token 数还能再降 30%–50%,对回答质量基本无影响。
  • 监控用量、设支出告警。OpenAI、Anthropic、阿里云、火山引擎、智谱后台都提供按模型、按 endpoint、按 API key 的用量看板。给每个项目设硬性月度上限,避免 bug 或循环调用导致一夜烧光预算(业内每年都有几起新闻级事故)。
  • 高并发、高合规场景考虑自部署。Llama 4、DeepSeek V3.2、Qwen3、Mistral 都是开源权重,可以在自有 GPU 上跑。Groq、SiliconFlow、阿里云 PAI 也提供托管推理,0.11–0.5 美元/百万 token,比闭源 API 便宜 5–10 倍。日调用百万级以上的应用,自部署回本周期通常在 3–6 个月内。

关于 token 与大模型 API 费用的常见问题

1,000 个 token 大约等于多少汉字?

在 OpenAI(GPT 系列)和 Claude 这类对中文不太友好的分词器里,1,000 token 约等于 500–700 个汉字;在通义千问、文心一言、千帆这类按「1 汉字 ≈ 1 token」设计的国产分词器里,1,000 token 约等于 1,000 个汉字;DeepSeek、Kimi、豆包介于两者之间,约 700–900 汉字。换算英文则比较一致:1,000 token 约 750 个英文单词,或 4,000 个英文字符。中英混合文本要分别估算后相加。

为什么中文比英文贵那么多?

因为主流的 BPE(Byte Pair Encoding)分词器是用大量英文语料训练的,英文常见单词被压缩成 1 个 token,而 UTF-8 下 1 个汉字占 3 个字节,未在词表里出现的汉字会被拆成多个 byte 级 token,1 字常见对应 1.5–2 token。结果是同样信息量的中英文文本,中文 token 数大约是英文的 1.5–2 倍,账单也就贵 1.5–2 倍。这也是国产大模型主推「1 汉字 = 1 token」的根本原因——既是技术选择,也是商业卖点。

输出 token 为什么比输入贵 3 到 5 倍?

因为生成机制不一样。输入 token 可以一次性并行送进 GPU 计算(一次 forward pass 处理几千个 token 没问题),但输出 token 必须一个接一个生成,每生成 1 个就要重新跑一次推理,GPU 显存与计算开销大很多。所以 Claude Sonnet 4.6 输入 3 美元、输出 15 美元(5 倍);GPT-5 输入 1.25、输出 10(8 倍);DeepSeek V4 Flash 输入 0.14、输出 0.28(2 倍)。优化总账单时,砍输出长度(设 max_tokens、要求精简回答)的边际收益最大。

2026 年最便宜的中文大模型 API 是哪个?

按 2026 年 4 月公开报价:豆包 Pro 32K 输入 0.0008 元、输出 0.002 元每千 token,是国内最便宜的主力模型之一;DeepSeek V4 Flash 输入 0.14 美元、输出 0.28 美元/百万 token;Kimi K2.5 输入 0.42、输出 2.2 美元;通义千问 Qwen-Turbo 输入 0.3 元、输出 0.6 元/百万 token;Qwen-Long 输入 0.5 元、输出 2 元(专攻长文本);智谱 GLM-4-Flash 主流额度免费,付费段价位也在国内最低梯队。如果只看「中文便宜 + 质量够用」,豆包 Pro 与 DeepSeek V4 Flash 通常是开发者首选。

怎么精确数 token?有没有不调 API 就能算的方法?

三条路。第一,用 OpenAI 的 tiktoken(pip install tiktoken;encoding = tiktoken.encoding_for_model('gpt-4'); len(encoding.encode(text))),GPT-4o 系用 o200k_base 编码。第二,把文本粘进上方的在线 token 计算器,立刻看到 token 数和各模型的费用估算,不用写代码。第三,用 1 汉字 ≈ 1.5 token(GPT 系)或 1 汉字 ≈ 1 token(国产模型)的经验公式心算,误差通常在 ±10% 以内。生产环境最准确的还是 API 返回的 usage 字段(input_tokens、output_tokens、cached_tokens 都有),所有主流模型都返回。

上下文窗口和 token 限制是一回事吗?

不是。上下文窗口(context window)指模型一次最多能「看」的总 token 数(输入 + 输出),是模型架构上限;token 限制有时还指 API 层的 max_tokens 参数(你愿意为输出付多少 token 的钱)。2026 年常见模型上下文:GPT-4o 128K,GPT-4.1 1M,Claude Opus 4.6 与 Sonnet 4.6 都是 1M(200K 之后切换到更高费率),Gemini 2.5 Pro 1M,DeepSeek V4 128K,Qwen3-Max 1M,Kimi K2.6 256K,Llama 4 Scout 10M。注意:「窗口大」不等于「实际效果好」,模型在 32K 之后召回与推理能力都会衰减,超过 200K 还要承担更贵的长上下文费率。

prompt 缓存到底能省多少?

RAG、客服、Code Copilot 这类应用 80%+ 的输入是重复的(system prompt + 知识库片段 + 对话历史),缓存命中后这部分按基础输入价的 10%(Anthropic、DeepSeek V4)至 50%(OpenAI 自动缓存)计费。例如一个每天处理 50 次查询、每次需检索 20,000 token RAG 上下文的应用,开 1 小时缓存能从原来约 3 美元/天降到 0.5 美元,节省约 82%。Anthropic 写入缓存有 25% 溢价(一次写入要被读回 2 次以上才划算),OpenAI 与 DeepSeek 自动管理无溢价。建议把不变的内容放 prompt 开头,变量放结尾,最大化前缀命中率。

为什么对话刚到第 10 轮,就花掉 5 万 token?

因为大模型 API 是无状态的(stateless),每轮对话都要把完整历史重新发一遍。假设每轮 user + assistant 合计 1,500 token,第 10 轮要发的输入是 1 + 2 + 3 + ... + 9 ≈ 45 倍单轮内容,再加上 system prompt 重复发送,总输入轻松破 5 万 token。优化思路:1) 开 prompt 缓存把历史压成低价缓存;2) 用滑动窗口或对话压缩(每 10 轮做一次摘要)替代原文堆叠;3) 必要时切到带原生上下文压缩的客户端(部分 Claude 客户端会自动总结长历史)。

图片和文件输入也要算 token 吗?

要。多模态模型把图片切成 tile 后转换成 token:GPT-4o 处理一张 1024×1024 高清图约 765 token(85 base + 4 个 512×512 tile × 170 token);Claude 多模态约 1,500–1,600 token/图;Gemini 2.5 视觉 token 由分辨率决定;智谱 GLM-4V 一张图约 1,047 token。PDF、Word、Excel 通常先被解析成纯文本再分词,按文本计费,所以一份 10 页中文 PDF 报告(约 5,000 字)大约 7,500–10,000 token。视觉密集型应用(OCR、UI 截图分析)最容易爆账单,建议提前在测试集上量过 token 再上线。

Token 计算器收费吗?数据会不会被收集?

本计算器完全免费,不需要登录或注册,文本只在浏览器本地估算 token 数,不会发送到任何 LLM API,因此不会有 prompt 泄露的风险,也不会消耗任何模型的 token 配额。模型单价数据来自 OpenAI、Anthropic、Google、阿里云、DeepSeek、月之暗面、智谱、字节跳动等厂商 2026 年公开报价,每月跟随官方调价更新。结果仅作预算估算参考,最终实际账单以各家 API 控制台 usage 字段为准(含缓存命中、Batch 折扣、长上下文溢价等修正)。


Token 与大模型 API 术语表

Token

大模型处理文本的最小单位,可以是 1 个汉字、1 个英文单词、1 个标点,或者英文长单词的若干字节片段。所有主流 API 都按 token 计费,输入与输出分开标价。

分词器(Tokenizer)

把原始文本切成 token 的算法。不同厂商用不同分词器:OpenAI 用 tiktoken(cl100k_base / o200k_base),Anthropic 用自研 BPE,Google 用 SentencePiece,通义千问、文心一言对中文专项优化。同一段文本在不同分词器下 token 数差距可达 50%。

BPE(Byte Pair Encoding)

字节对编码——主流 LLM 最常用的分词算法,通过反复合并最高频字节对构建词表。GPT、Claude、Llama、DeepSeek、Qwen 都用 BPE 或其变体。BPE 对英文压缩率高,对中文相对偏低,是「中文比英文贵」的技术根因。

上下文窗口(Context Window)

模型单次请求能处理的最大 token 数(输入 + 输出之和)。2026 年主流:GPT-4o 128K、GPT-4.1 与 Claude Sonnet/Opus 4.6 1M、Gemini 2.5 Pro 1M、Qwen3-Max 1M、Kimi K2.6 256K、Llama 4 Scout 10M。超过 200K 通常切换到更高费率。

Prompt 缓存

厂商把重复的 prompt 前缀(system prompt、长上下文、历史对话)的 KV 张量保存在显存里,下次同前缀直接复用。命中价为基础输入价的 10%–50%,可让 RAG、客服等高重复应用的输入成本下降 70%–90%。OpenAI/Kimi/DeepSeek 自动管理,Anthropic/阿里云需显式声明。

输入 token vs 输出 token

输入 token = 你发给模型的 prompt(含 system prompt、对话历史、RAG 上下文);输出 token = 模型生成的回答。输出价通常是输入价的 3–8 倍,因为生成需要逐 token 串行推理,GPU 开销远高于并行处理输入。

每百万 token 单价($/MTok 或 元/百万 token)

大模型 API 的标准计费单位。海外厂商多用美元/百万 token($/MTok),国产厂商常见两种:元/百万 token(如通义千问)或元/千 token(如豆包、文心)。换算时注意单位差三个数量级。

Batch API

异步批量调用接口,OpenAI、Anthropic、阿里云百炼、Kimi 都提供,输入和输出均享 50% 左右折扣(Kimi 为 4 折)。适合非实时任务:夜间报表、历史回填、离线打标签、批量翻译。延迟从秒级变成 24 小时内,但成本砍半。


参考资料

  1. Hugging Face — BPE 分词技术讲解
  2. OpenAI — API 定价
  3. Anthropic Claude — API 定价
  4. Anthropic Claude — Token 计数文档
  5. Google Gemini — API 定价

由 Smart Calculators 团队审核