Question 1

1,000 个 token 大约等于多少汉字？

Accepted Answer

在 OpenAI（GPT 系列）和 Claude 这类对中文不太友好的分词器里，1,000 token 约等于 500–700 个汉字；在通义千问、文心一言、千帆这类按「1 汉字 ≈ 1 token」设计的国产分词器里，1,000 token 约等于 1,000 个汉字；DeepSeek、Kimi、豆包介于两者之间，约 700–900 汉字。换算英文则比较一致：1,000 token 约 750 个英文单词，或 4,000 个英文字符。中英混合文本要分别估算后相加。

Question 2

为什么中文比英文贵那么多？

Accepted Answer

因为主流的 BPE（Byte Pair Encoding）分词器是用大量英文语料训练的，英文常见单词被压缩成 1 个 token，而 UTF-8 下 1 个汉字占 3 个字节，未在词表里出现的汉字会被拆成多个 byte 级 token，1 字常见对应 1.5–2 token。结果是同样信息量的中英文文本，中文 token 数大约是英文的 1.5–2 倍，账单也就贵 1.5–2 倍。这也是国产大模型主推「1 汉字 = 1 token」的根本原因——既是技术选择，也是商业卖点。

Question 3

输出 token 为什么比输入贵 3 到 5 倍？

Accepted Answer

因为生成机制不一样。输入 token 可以一次性并行送进 GPU 计算（一次 forward pass 处理几千个 token 没问题），但输出 token 必须一个接一个生成，每生成 1 个就要重新跑一次推理，GPU 显存与计算开销大很多。所以 Claude Sonnet 4.6 输入 3 美元、输出 15 美元（5 倍）；GPT-5 输入 1.25、输出 10（8 倍）；DeepSeek V4 Flash 输入 0.14、输出 0.28（2 倍）。优化总账单时，砍输出长度（设 max_tokens、要求精简回答）的边际收益最大。

Question 4

2026 年最便宜的中文大模型 API 是哪个？

Accepted Answer

按 2026 年 4 月公开报价：豆包 Pro 32K 输入 0.0008 元、输出 0.002 元每千 token，是国内最便宜的主力模型之一；DeepSeek V4 Flash 输入 0.14 美元、输出 0.28 美元/百万 token；Kimi K2.5 输入 0.42、输出 2.2 美元；通义千问 Qwen-Turbo 输入 0.3 元、输出 0.6 元/百万 token；Qwen-Long 输入 0.5 元、输出 2 元（专攻长文本）；智谱 GLM-4-Flash 主流额度免费，付费段价位也在国内最低梯队。如果只看「中文便宜 + 质量够用」，豆包 Pro 与 DeepSeek V4 Flash 通常是开发者首选。

Question 5

怎么精确数 token？有没有不调 API 就能算的方法？

Accepted Answer

三条路。第一，用 OpenAI 的 tiktoken（pip install tiktoken；encoding = tiktoken.encoding_for_model('gpt-4'); len(encoding.encode(text))），GPT-4o 系用 o200k_base 编码。第二，把文本粘进上方的在线 token 计算器，立刻看到 token 数和各模型的费用估算，不用写代码。第三，用 1 汉字 ≈ 1.5 token（GPT 系）或 1 汉字 ≈ 1 token（国产模型）的经验公式心算，误差通常在 ±10% 以内。生产环境最准确的还是 API 返回的 usage 字段（input_tokens、output_tokens、cached_tokens 都有），所有主流模型都返回。

Question 6

上下文窗口和 token 限制是一回事吗？

Accepted Answer

不是。上下文窗口（context window）指模型一次最多能「看」的总 token 数（输入 + 输出），是模型架构上限；token 限制有时还指 API 层的 max_tokens 参数（你愿意为输出付多少 token 的钱）。2026 年常见模型上下文：GPT-4o 128K，GPT-4.1 1M，Claude Opus 4.6 与 Sonnet 4.6 都是 1M（200K 之后切换到更高费率），Gemini 2.5 Pro 1M，DeepSeek V4 128K，Qwen3-Max 1M，Kimi K2.6 256K，Llama 4 Scout 10M。注意：「窗口大」不等于「实际效果好」，模型在 32K 之后召回与推理能力都会衰减，超过 200K 还要承担更贵的长上下文费率。

Question 7

prompt 缓存到底能省多少？

Accepted Answer

RAG、客服、Code Copilot 这类应用 80%+ 的输入是重复的（system prompt + 知识库片段 + 对话历史），缓存命中后这部分按基础输入价的 10%（Anthropic、DeepSeek V4）至 50%（OpenAI 自动缓存）计费。例如一个每天处理 50 次查询、每次需检索 20,000 token RAG 上下文的应用，开 1 小时缓存能从原来约 3 美元/天降到 0.5 美元，节省约 82%。Anthropic 写入缓存有 25% 溢价（一次写入要被读回 2 次以上才划算），OpenAI 与 DeepSeek 自动管理无溢价。建议把不变的内容放 prompt 开头，变量放结尾，最大化前缀命中率。

Question 8

为什么对话刚到第 10 轮，就花掉 5 万 token？

Accepted Answer

因为大模型 API 是无状态的（stateless），每轮对话都要把完整历史重新发一遍。假设每轮 user + assistant 合计 1,500 token，第 10 轮要发的输入是 1 + 2 + 3 + ... + 9 ≈ 45 倍单轮内容，再加上 system prompt 重复发送，总输入轻松破 5 万 token。优化思路：1) 开 prompt 缓存把历史压成低价缓存；2) 用滑动窗口或对话压缩（每 10 轮做一次摘要）替代原文堆叠；3) 必要时切到带原生上下文压缩的客户端（部分 Claude 客户端会自动总结长历史）。

Question 9

图片和文件输入也要算 token 吗？

Accepted Answer

要。多模态模型把图片切成 tile 后转换成 token：GPT-4o 处理一张 1024×1024 高清图约 765 token（85 base + 4 个 512×512 tile × 170 token）；Claude 多模态约 1,500–1,600 token/图；Gemini 2.5 视觉 token 由分辨率决定；智谱 GLM-4V 一张图约 1,047 token。PDF、Word、Excel 通常先被解析成纯文本再分词，按文本计费，所以一份 10 页中文 PDF 报告（约 5,000 字）大约 7,500–10,000 token。视觉密集型应用（OCR、UI 截图分析）最容易爆账单，建议提前在测试集上量过 token 再上线。

Question 10

Token 计算器收费吗？数据会不会被收集？

Accepted Answer

本计算器完全免费，不需要登录或注册，文本只在浏览器本地估算 token 数，不会发送到任何 LLM API，因此不会有 prompt 泄露的风险，也不会消耗任何模型的 token 配额。模型单价数据来自 OpenAI、Anthropic、Google、阿里云、DeepSeek、月之暗面、智谱、字节跳动等厂商 2026 年公开报价，每月跟随官方调价更新。结果仅作预算估算参考，最终实际账单以各家 API 控制台 usage 字段为准（含缓存命中、Batch 折扣、长上下文溢价等修正）。

Token 计算器

$0.01

$1.05

$31.50

$383.25

从文本估算 token 数

Token 计算器。GPT、Claude、DeepSeek 等大模型 token 数量与 API 费用在线估算。

什么是 token？为什么大模型按 token 收费

大模型 API 调用费用怎么算？四步估算法

大模型 API 费用计算公式

API 费用估算实例：中国开发者常见场景

中文客服机器人：每月 10 万次对话，DeepSeek 比 GPT 便宜多少

RAG 检索增强：每天总结 1,000 篇行业资讯

代码助手：20 人团队每天 800 次调用

降低大模型 API 成本的实战建议

关于 token 与大模型 API 费用的常见问题

1,000 个 token 大约等于多少汉字？

为什么中文比英文贵那么多？

输出 token 为什么比输入贵 3 到 5 倍？

2026 年最便宜的中文大模型 API 是哪个？

怎么精确数 token？有没有不调 API 就能算的方法？

上下文窗口和 token 限制是一回事吗？

prompt 缓存到底能省多少？

为什么对话刚到第 10 轮，就花掉 5 万 token？

图片和文件输入也要算 token 吗？

Token 计算器收费吗？数据会不会被收集？

Token 与大模型 API 术语表

Token

分词器（Tokenizer）

BPE（Byte Pair Encoding）

上下文窗口（Context Window）

Prompt 缓存

输入 token vs 输出 token

每百万 token 单价（$/MTok 或元/百万 token）

Batch API

参考资料

Token 计算器

$0.01

$1.05

$31.50

$383.25

从文本估算 token 数

Token 计算器。GPT、Claude、DeepSeek 等大模型 token 数量与 API 费用在线估算。

什么是 token？为什么大模型按 token 收费

大模型 API 调用费用怎么算？四步估算法

大模型 API 费用计算公式

API 费用估算实例：中国开发者常见场景

中文客服机器人：每月 10 万次对话，DeepSeek 比 GPT 便宜多少

RAG 检索增强：每天总结 1,000 篇行业资讯

代码助手：20 人团队每天 800 次调用

降低大模型 API 成本的实战建议

关于 token 与大模型 API 费用的常见问题

1,000 个 token 大约等于多少汉字？

为什么中文比英文贵那么多？

输出 token 为什么比输入贵 3 到 5 倍？

2026 年最便宜的中文大模型 API 是哪个？

怎么精确数 token？有没有不调 API 就能算的方法？

上下文窗口和 token 限制是一回事吗？

prompt 缓存到底能省多少？

为什么对话刚到第 10 轮，就花掉 5 万 token？

图片和文件输入也要算 token 吗？

Token 计算器收费吗？数据会不会被收集？

Token 与大模型 API 术语表

Token

分词器（Tokenizer）

BPE（Byte Pair Encoding）

上下文窗口（Context Window）

Prompt 缓存

输入 token vs 输出 token

每百万 token 单价（$/MTok 或 元/百万 token）

Batch API

参考资料

每百万 token 单价（$/MTok 或元/百万 token）