Token 计算器
计算使用 AI 语言模型的成本,从文本估算 token 数量,并比较 GPT-4、Claude、Gemini 等模型的计费。
$
$
每次请求成本
$0.01
输入: $0.0030 · 输出: $0.0075
每日成本
$1.05
100 每日请求次数
每月成本
$31.50
30 天
年度成本
$383.25
365 天
从文本估算 token 数
Token 计算器。GPT、Claude、DeepSeek 等大模型 token 数量与 API 费用在线估算。
什么是 token?为什么大模型按 token 收费
大模型 API 调用费用怎么算?四步估算法
大模型 API 费用计算公式
- = 单次 API 调用费用(美元或人民币,与单价单位一致)
- = 输入 token 数(system prompt + 对话历史 + 当前请求)
- = 输出 token 数(模型生成的回答 / JSON / 代码)
- = 输入价格(每 1,000,000 token 的费率)
- = 输出价格(每 1,000,000 token 的费率)
API 费用估算实例:中国开发者常见场景
中文客服机器人:每月 10 万次对话,DeepSeek 比 GPT 便宜多少
RAG 检索增强:每天总结 1,000 篇行业资讯
代码助手:20 人团队每天 800 次调用
降低大模型 API 成本的实战建议
- 按任务难度分流模型。简单的分类、抽取、关键词匹配交给 DeepSeek V4 Flash、豆包 Lite、Qwen-Turbo、Kimi K1、GPT-5 Nano、Gemini 2.5 Flash-Lite 这类 0.1–0.4 元/百万 token 区间的轻量模型;推理、复杂代码、长文创作再上 Claude Sonnet 4.6、GPT-5、Gemini 2.5 Pro、Qwen-Max。一个简单的「先小模型判断,必要时升级」的路由策略,往往能把账单砍掉 40%–60%。
- 中文场景优先国产模型。OpenAI 的 tiktoken 对中文不友好,1 汉字常被切成 1.5–2 token;通义千问、千帆、DeepSeek、Kimi 的分词器对中文做过优化,同样的中文输入便宜 30%–50%。再叠加豆包、DeepSeek 的低单价,处理中文语料的总成本能压到 GPT 的 1/10 以下。
- 把 system prompt 和重复上下文塞进缓存。OpenAI 自动缓存(命中 50% 折扣)、Claude 显式 cache_control(命中 10% 计费)、阿里云百炼上下文缓存、Kimi 自动缓存(命中 16.9%)、DeepSeek V4 缓存命中(命中价仅 0.0028 美元/百万 token)。RAG、客服、Code Copilot 这类反复发送同一段长 prompt 的应用,命中率超过 80% 是常态,输入成本可省 70%–90%。
- 用 Batch API 处理离线任务。OpenAI、Anthropic、阿里云、Kimi 都提供 50% 左右折扣的批量接口,适合夜间报表、历史数据回填、批量打标签、离线翻译。一份原本要 1,000 元的批量任务,跑批量接口能压到 500 元甚至 400 元(Kimi 是 4 折)。
- 压 prompt、压输出。把 system prompt 从 2,000 token 削到 500 token,输入费用立省 75%;用 max_tokens 限定输出长度(FAQ 答案设 200,代码片段设 600),避免模型啰嗦。中文项目把固定的 system 指令换成英文,token 数还能再降 30%–50%,对回答质量基本无影响。
- 监控用量、设支出告警。OpenAI、Anthropic、阿里云、火山引擎、智谱后台都提供按模型、按 endpoint、按 API key 的用量看板。给每个项目设硬性月度上限,避免 bug 或循环调用导致一夜烧光预算(业内每年都有几起新闻级事故)。
- 高并发、高合规场景考虑自部署。Llama 4、DeepSeek V3.2、Qwen3、Mistral 都是开源权重,可以在自有 GPU 上跑。Groq、SiliconFlow、阿里云 PAI 也提供托管推理,0.11–0.5 美元/百万 token,比闭源 API 便宜 5–10 倍。日调用百万级以上的应用,自部署回本周期通常在 3–6 个月内。
关于 token 与大模型 API 费用的常见问题
1,000 个 token 大约等于多少汉字?
在 OpenAI(GPT 系列)和 Claude 这类对中文不太友好的分词器里,1,000 token 约等于 500–700 个汉字;在通义千问、文心一言、千帆这类按「1 汉字 ≈ 1 token」设计的国产分词器里,1,000 token 约等于 1,000 个汉字;DeepSeek、Kimi、豆包介于两者之间,约 700–900 汉字。换算英文则比较一致:1,000 token 约 750 个英文单词,或 4,000 个英文字符。中英混合文本要分别估算后相加。
为什么中文比英文贵那么多?
因为主流的 BPE(Byte Pair Encoding)分词器是用大量英文语料训练的,英文常见单词被压缩成 1 个 token,而 UTF-8 下 1 个汉字占 3 个字节,未在词表里出现的汉字会被拆成多个 byte 级 token,1 字常见对应 1.5–2 token。结果是同样信息量的中英文文本,中文 token 数大约是英文的 1.5–2 倍,账单也就贵 1.5–2 倍。这也是国产大模型主推「1 汉字 = 1 token」的根本原因——既是技术选择,也是商业卖点。
输出 token 为什么比输入贵 3 到 5 倍?
因为生成机制不一样。输入 token 可以一次性并行送进 GPU 计算(一次 forward pass 处理几千个 token 没问题),但输出 token 必须一个接一个生成,每生成 1 个就要重新跑一次推理,GPU 显存与计算开销大很多。所以 Claude Sonnet 4.6 输入 3 美元、输出 15 美元(5 倍);GPT-5 输入 1.25、输出 10(8 倍);DeepSeek V4 Flash 输入 0.14、输出 0.28(2 倍)。优化总账单时,砍输出长度(设 max_tokens、要求精简回答)的边际收益最大。
2026 年最便宜的中文大模型 API 是哪个?
按 2026 年 4 月公开报价:豆包 Pro 32K 输入 0.0008 元、输出 0.002 元每千 token,是国内最便宜的主力模型之一;DeepSeek V4 Flash 输入 0.14 美元、输出 0.28 美元/百万 token;Kimi K2.5 输入 0.42、输出 2.2 美元;通义千问 Qwen-Turbo 输入 0.3 元、输出 0.6 元/百万 token;Qwen-Long 输入 0.5 元、输出 2 元(专攻长文本);智谱 GLM-4-Flash 主流额度免费,付费段价位也在国内最低梯队。如果只看「中文便宜 + 质量够用」,豆包 Pro 与 DeepSeek V4 Flash 通常是开发者首选。
怎么精确数 token?有没有不调 API 就能算的方法?
三条路。第一,用 OpenAI 的 tiktoken(pip install tiktoken;encoding = tiktoken.encoding_for_model('gpt-4'); len(encoding.encode(text))),GPT-4o 系用 o200k_base 编码。第二,把文本粘进上方的在线 token 计算器,立刻看到 token 数和各模型的费用估算,不用写代码。第三,用 1 汉字 ≈ 1.5 token(GPT 系)或 1 汉字 ≈ 1 token(国产模型)的经验公式心算,误差通常在 ±10% 以内。生产环境最准确的还是 API 返回的 usage 字段(input_tokens、output_tokens、cached_tokens 都有),所有主流模型都返回。
上下文窗口和 token 限制是一回事吗?
不是。上下文窗口(context window)指模型一次最多能「看」的总 token 数(输入 + 输出),是模型架构上限;token 限制有时还指 API 层的 max_tokens 参数(你愿意为输出付多少 token 的钱)。2026 年常见模型上下文:GPT-4o 128K,GPT-4.1 1M,Claude Opus 4.6 与 Sonnet 4.6 都是 1M(200K 之后切换到更高费率),Gemini 2.5 Pro 1M,DeepSeek V4 128K,Qwen3-Max 1M,Kimi K2.6 256K,Llama 4 Scout 10M。注意:「窗口大」不等于「实际效果好」,模型在 32K 之后召回与推理能力都会衰减,超过 200K 还要承担更贵的长上下文费率。
prompt 缓存到底能省多少?
RAG、客服、Code Copilot 这类应用 80%+ 的输入是重复的(system prompt + 知识库片段 + 对话历史),缓存命中后这部分按基础输入价的 10%(Anthropic、DeepSeek V4)至 50%(OpenAI 自动缓存)计费。例如一个每天处理 50 次查询、每次需检索 20,000 token RAG 上下文的应用,开 1 小时缓存能从原来约 3 美元/天降到 0.5 美元,节省约 82%。Anthropic 写入缓存有 25% 溢价(一次写入要被读回 2 次以上才划算),OpenAI 与 DeepSeek 自动管理无溢价。建议把不变的内容放 prompt 开头,变量放结尾,最大化前缀命中率。
为什么对话刚到第 10 轮,就花掉 5 万 token?
因为大模型 API 是无状态的(stateless),每轮对话都要把完整历史重新发一遍。假设每轮 user + assistant 合计 1,500 token,第 10 轮要发的输入是 1 + 2 + 3 + ... + 9 ≈ 45 倍单轮内容,再加上 system prompt 重复发送,总输入轻松破 5 万 token。优化思路:1) 开 prompt 缓存把历史压成低价缓存;2) 用滑动窗口或对话压缩(每 10 轮做一次摘要)替代原文堆叠;3) 必要时切到带原生上下文压缩的客户端(部分 Claude 客户端会自动总结长历史)。
图片和文件输入也要算 token 吗?
要。多模态模型把图片切成 tile 后转换成 token:GPT-4o 处理一张 1024×1024 高清图约 765 token(85 base + 4 个 512×512 tile × 170 token);Claude 多模态约 1,500–1,600 token/图;Gemini 2.5 视觉 token 由分辨率决定;智谱 GLM-4V 一张图约 1,047 token。PDF、Word、Excel 通常先被解析成纯文本再分词,按文本计费,所以一份 10 页中文 PDF 报告(约 5,000 字)大约 7,500–10,000 token。视觉密集型应用(OCR、UI 截图分析)最容易爆账单,建议提前在测试集上量过 token 再上线。
Token 计算器收费吗?数据会不会被收集?
本计算器完全免费,不需要登录或注册,文本只在浏览器本地估算 token 数,不会发送到任何 LLM API,因此不会有 prompt 泄露的风险,也不会消耗任何模型的 token 配额。模型单价数据来自 OpenAI、Anthropic、Google、阿里云、DeepSeek、月之暗面、智谱、字节跳动等厂商 2026 年公开报价,每月跟随官方调价更新。结果仅作预算估算参考,最终实际账单以各家 API 控制台 usage 字段为准(含缓存命中、Batch 折扣、长上下文溢价等修正)。
Token 与大模型 API 术语表
Token
大模型处理文本的最小单位,可以是 1 个汉字、1 个英文单词、1 个标点,或者英文长单词的若干字节片段。所有主流 API 都按 token 计费,输入与输出分开标价。
分词器(Tokenizer)
把原始文本切成 token 的算法。不同厂商用不同分词器:OpenAI 用 tiktoken(cl100k_base / o200k_base),Anthropic 用自研 BPE,Google 用 SentencePiece,通义千问、文心一言对中文专项优化。同一段文本在不同分词器下 token 数差距可达 50%。
BPE(Byte Pair Encoding)
字节对编码——主流 LLM 最常用的分词算法,通过反复合并最高频字节对构建词表。GPT、Claude、Llama、DeepSeek、Qwen 都用 BPE 或其变体。BPE 对英文压缩率高,对中文相对偏低,是「中文比英文贵」的技术根因。
上下文窗口(Context Window)
模型单次请求能处理的最大 token 数(输入 + 输出之和)。2026 年主流:GPT-4o 128K、GPT-4.1 与 Claude Sonnet/Opus 4.6 1M、Gemini 2.5 Pro 1M、Qwen3-Max 1M、Kimi K2.6 256K、Llama 4 Scout 10M。超过 200K 通常切换到更高费率。
Prompt 缓存
厂商把重复的 prompt 前缀(system prompt、长上下文、历史对话)的 KV 张量保存在显存里,下次同前缀直接复用。命中价为基础输入价的 10%–50%,可让 RAG、客服等高重复应用的输入成本下降 70%–90%。OpenAI/Kimi/DeepSeek 自动管理,Anthropic/阿里云需显式声明。
输入 token vs 输出 token
输入 token = 你发给模型的 prompt(含 system prompt、对话历史、RAG 上下文);输出 token = 模型生成的回答。输出价通常是输入价的 3–8 倍,因为生成需要逐 token 串行推理,GPU 开销远高于并行处理输入。
每百万 token 单价($/MTok 或 元/百万 token)
大模型 API 的标准计费单位。海外厂商多用美元/百万 token($/MTok),国产厂商常见两种:元/百万 token(如通义千问)或元/千 token(如豆包、文心)。换算时注意单位差三个数量级。
Batch API
异步批量调用接口,OpenAI、Anthropic、阿里云百炼、Kimi 都提供,输入和输出均享 50% 左右折扣(Kimi 为 4 折)。适合非实时任务:夜间报表、历史回填、离线打标签、批量翻译。延迟从秒级变成 24 小时内,但成本砍半。
参考资料
由 Smart Calculators 团队审核