Smart Calculators

Smart

Calculators

Máy tính token

Tính chi phí sử dụng mô hình ngôn ngữ AI. Ước tính token từ văn bản và so sánh giá giữa các mô hình như GPT-4, Claude và Gemini.

Máy tính token. Đếm token AI và ước tính chi phí API cho các mô hình LLM.
Máy tính token ước tính số lượng token trong văn bản và tính chi phí API cho các mô hình AI như GPT, Claude, Gemini, Grok và DeepSeek. Công cụ chuyển đổi độ dài văn bản thành token theo tỷ lệ chuẩn khoảng 1 token mỗi 4 ký tự, sau đó áp dụng mức giá mỗi triệu token của từng mô hình để hiển thị chi phí đầu vào và đầu ra ngay lập tức.

Máy Tính Token AI Là Gì?

Máy tính token AI là công cụ giúp ước tính số lượng token trong một đoạn văn bản và tính chi phí khi xử lý văn bản đó qua các API mô hình ngôn ngữ lớn (LLM) như GPT, Claude, Gemini, Grok, DeepSeek, Mistral và Llama. Token là đơn vị nhỏ nhất mà các mô hình AI sử dụng để đọc và sinh văn bản -- một token có thể là một từ, một phần của từ, hoặc thậm chí một ký tự đơn lẻ.
Đối với lập trình viên và doanh nghiệp Việt Nam đang xây dựng ứng dụng tích hợp AI, việc hiểu chi phí token là yếu tố sống còn để lập ngân sách và kiểm soát chi tiêu. Mỗi lệnh gọi API tới một mô hình LLM được tính phí dựa trên số token đầu vào (prompt của bạn) và token đầu ra (câu trả lời của mô hình). Một lệnh gọi API đơn lẻ có thể chỉ tốn vài phần trăm cent, nhưng khi mở rộng quy mô lên hàng nghìn hoặc hàng triệu yêu cầu mỗi ngày, chi phí token có thể trở thành khoản chi phí lớn nhất trong dự án.
Quy tắc ước lượng chung là 1 token tương đương khoảng 4 ký tự tiếng Anh, hay khoảng 0,75 từ. Tuy nhiên, đối với tiếng Việt, tỷ lệ này cao hơn đáng kể: một từ tiếng Việt thường tạo ra 1,5 đến 3 token do cấu trúc dấu thanh và ký tự đặc biệt. Điều này có nghĩa cùng một nội dung viết bằng tiếng Việt sẽ tốn nhiều token hơn so với tiếng Anh, trực tiếp ảnh hưởng đến chi phí API.

Cách Tính Chi Phí Token AI

Để tính chi phí một lệnh gọi API AI, bạn cần ba thông tin: số token đầu vào, số token đầu ra, và bảng giá token theo từng mô hình.
Dưới đây là quy trình từng bước:
1. Ước tính số token đầu vào. Dán đoạn văn bản prompt vào công cụ đếm token, hoặc dùng quy tắc ước lượng 1 token trên 4 ký tự tiếng Anh. Với tiếng Việt, hãy chia số ký tự cho 3 để có ước tính chính xác hơn.
2. Ước tính số token đầu ra. Đây là độ dài dự kiến của câu trả lời mô hình. Một câu trả lời ngắn khoảng 100-300 token, một giải thích chi tiết có thể lên tới 1.000-2.000 token.
3. Tra cứu bảng giá của mô hình. Các nhà cung cấp AI công bố giá dưới dạng chi phí trên 1 triệu token, với mức giá riêng biệt cho token đầu vào và đầu ra.
4. Áp dụng công thức tính chi phí (xem phần bên dưới).
Ví dụ: bạn gửi prompt 2.000 token tới Claude Sonnet 4.6 (3 USD/1 triệu token đầu vào) và nhận về phản hồi 500 token (15 USD/1 triệu token đầu ra), chi phí là: (2.000 / 1.000.000 x 3) + (500 / 1.000.000 x 15) = 0,006 + 0,0075 = 0,0135 USD mỗi yêu cầu, tương đương khoảng 345 VND. Với 10.000 yêu cầu mỗi ngày, tổng chi phí là 135 USD/ngày hay khoảng 3.450.000 VND/ngày, tức xấp xỉ 103.500.000 VND/tháng.
Token đầu ra thường đắt gấp 3-5 lần token đầu vào vì mô hình phải sinh từng token đầu ra một cách tuần tự -- mỗi token mới yêu cầu một lượt xử lý riêng qua toàn bộ mô hình, trong khi tất cả token đầu vào được xử lý song song cùng lúc.

Công Thức Tính Chi Phí Token AI

C=Tin×Pin1,000,000+Tout×Pout1,000,000C = \frac{T_{in} \times P_{in}}{1{,}000{,}000} + \frac{T_{out} \times P_{out}}{1{,}000{,}000}
  • CC = Tổng chi phí của lệnh gọi API (tính bằng USD)
  • TinT_{in} = Số token đầu vào (prompt, system message và ngữ cảnh)
  • ToutT_{out} = Số token đầu ra (phản hồi do mô hình sinh ra)
  • PinP_{in} = Giá mỗi 1 triệu token đầu vào của mô hình đã chọn
  • PoutP_{out} = Giá mỗi 1 triệu token đầu ra của mô hình đã chọn
Khi tính chi phí hàng tháng hoặc hàng năm ở quy mô lớn, mở rộng công thức để tính theo số lượng yêu cầu:
Cthang=(Tin×Pin+Tout×Pout1,000,000)×R×30C_{thang} = \left(\frac{T_{in} \times P_{in} + T_{out} \times P_{out}}{1{,}000{,}000}\right) \times R \times 30
trong đó R là số lệnh gọi API mỗi ngày. Nếu bạn sử dụng prompt caching (có sẵn từ OpenAI, Anthropic và Google), token đầu vào đã cache được tính phí chỉ bằng 10-50% giá gốc, giúp giảm đáng kể chi phí cho các ứng dụng có system prompt hoặc ngữ cảnh lặp lại. Trong trường hợp đó, hãy tách token đầu vào thành phần đã cache và chưa cache, rồi áp dụng mức giá ưu đãi cho phần đã cache.

Ví Dụ Tính Chi Phí Token AI

Chatbot chăm sóc khách hàng cho sàn thương mại điện tử: 50.000 cuộc hội thoại/tháng

Một startup thương mại điện tử tại TP.HCM triển khai chatbot hỗ trợ khách hàng sử dụng GPT-4.1 mini (0,40 USD/1 triệu token đầu vào, 1,60 USD/1 triệu token đầu ra). Mỗi cuộc hội thoại trung bình có 800 token đầu vào (system prompt + tin nhắn khách hàng bằng tiếng Việt + lịch sử hội thoại) và 400 token đầu ra (câu trả lời của bot).
Chi phí đầu vào: 50.000 x 800 / 1.000.000 x 0,40 = 16,00 USD Chi phí đầu ra: 50.000 x 400 / 1.000.000 x 1,60 = 32,00 USD Tổng chi phí hàng tháng: 48,00 USD (khoảng 1.230.000 VND)
Sử dụng prompt caching cho system prompt 300 token (giảm 50% chi phí), chi phí đầu vào giảm xuống còn khoảng 13,00 USD -- tiết kiệm 3,00 USD/tháng. Nếu dùng mô hình cao cấp hơn như Claude Sonnet 4.6 (3/15 USD/1 triệu token), cùng khối lượng công việc sẽ tốn 1.020 USD/tháng (khoảng 26.100.000 VND) -- đắt gấp 21 lần. Việc lựa chọn mô hình phù hợp là yếu tố quyết định chi phí quan trọng nhất.

Hệ thống tóm tắt tin tức tự động: 1.000 bài viết mỗi ngày

Một tòa soạn truyền thông số tại Hà Nội tóm tắt 1.000 bài báo tiếng Việt mỗi ngày. Mỗi bài viết trung bình 3.000 token đầu vào (lưu ý: văn bản tiếng Việt tạo ra nhiều token hơn tiếng Anh tương đương), và bản tóm tắt khoảng 300 token đầu ra. Họ sử dụng Gemini 3 Flash (0,50 USD/1 triệu token đầu vào, 3,00 USD/1 triệu token đầu ra).
Chi phí đầu vào hàng ngày: 1.000 x 3.000 / 1.000.000 x 0,50 = 1,50 USD Chi phí đầu ra hàng ngày: 1.000 x 300 / 1.000.000 x 3,00 = 0,90 USD Tổng hàng ngày: 2,40 USD | Hàng tháng: 72,00 USD (khoảng 1.843.000 VND)
Nếu chuyển sang Claude Opus 4.6 (5/25 USD/1 triệu token) để có chất lượng tóm tắt cao hơn, chi phí hàng tháng sẽ tăng lên 2.475 USD (khoảng 63.360.000 VND) -- gấp 34 lần. Với use case này, mô hình giá rẻ hơn vẫn cho chất lượng chấp nhận được với chi phí chỉ bằng một phần nhỏ.

Trợ lý lập trình AI cho đội ngũ 20 developer

Một công ty phần mềm tại Đà Nẵng với đội ngũ 20 lập trình viên sử dụng trợ lý code AI chạy bằng Claude Sonnet 4.6 (3 USD/1 triệu token đầu vào, 15 USD/1 triệu token đầu ra). Mỗi developer thực hiện khoảng 40 yêu cầu mỗi ngày, với trung bình 2.500 token đầu vào (ngữ cảnh code + câu hỏi) và 800 token đầu ra (gợi ý code + giải thích).
Số yêu cầu hàng ngày: 20 x 40 = 800 Chi phí đầu vào hàng ngày: 800 x 2.500 / 1.000.000 x 3,00 = 6,00 USD Chi phí đầu ra hàng ngày: 800 x 800 / 1.000.000 x 15,00 = 9,60 USD Tổng hàng ngày: 15,60 USD | Hàng tháng (22 ngày làm việc): 343,20 USD (khoảng 8.787.000 VND)
Chi phí trung bình mỗi developer là khoảng 17,16 USD/tháng (440.000 VND) -- tương đương 2 ly cà phê tại quán mỗi tuần. So với mức tăng năng suất mà trợ lý AI mang lại, đây là khoản đầu tư có ROI rất cao. Áp dụng prompt caching cho system prompt và ngữ cảnh code dùng chung có thể tiết kiệm thêm 15-25% chi phí.

Mẹo Giảm Chi Phí Token AI Hiệu Quả

  • Chọn đúng mô hình cho từng loại tác vụ. Dùng mô hình giá rẻ (GPT-5 Mini, GPT-4.1 mini, Gemini 2.5 Flash-Lite, Claude Haiku, DeepSeek V3.2, Grok 4.1 Fast, Amazon Nova Micro) cho các tác vụ đơn giản như phân loại, trích xuất và tóm tắt. Chỉ dùng mô hình cao cấp (GPT-5.4, GPT-4.1, Claude Sonnet/Opus, Gemini 2.5 Pro, Grok 4) khi thực sự cần khả năng suy luận vượt trội. Phân luồng mô hình theo độ phức tạp tác vụ có thể tiết kiệm 40-60% chi phí.
  • Kích hoạt prompt caching cho ngữ cảnh lặp lại. Nếu ứng dụng của bạn gửi cùng system prompt hoặc ngữ cảnh trong mỗi yêu cầu, prompt caching giảm chi phí token đầu vào lên tới 90%. OpenAI áp dụng tự động, Anthropic yêu cầu cấu hình cache_control trong header.
  • Sử dụng Batch API cho khối lượng công việc không cần phản hồi tức thì. OpenAI và Anthropic cung cấp xử lý hàng loạt với mức giảm 50% giá token. Nếu tác vụ không yêu cầu kết quả real-time (báo cáo, phân tích hàng loạt, xử lý dữ liệu), hãy gom lại và tiết kiệm một nửa chi phí.
  • Tinh gọn prompt một cách triệt để. Mỗi token trong prompt đều tốn tiền. Loại bỏ hướng dẫn thừa, system prompt dài dòng, và ngữ cảnh không cần thiết. Một prompt 500 token được viết chuẩn thường cho kết quả tốt hơn prompt 2.000 token lan man -- và rẻ hơn 75%.
  • Giới hạn độ dài đầu ra bằng tham số max_tokens. Cài đặt max_tokens để ngăn mô hình sinh ra phản hồi dài không cần thiết. Nếu chỉ cần câu trả lời một dòng, giới hạn đầu ra ở 100 token thay vì để mô hình viết cả đoạn văn.
  • Theo dõi và đặt cảnh báo chi tiêu. Sử dụng dashboard của nhà cung cấp hoặc công cụ bên thứ ba như Helicone để theo dõi tiêu thụ token theo endpoint, theo mô hình và theo người dùng. Đặt giới hạn chi tiêu cứng để tránh chi phí phát sinh do bug hoặc traffic đột biến.
  • Cân nhắc mô hình mã nguồn mở cho tác vụ khối lượng lớn. Mô hình tự host như Llama 4 (Meta), Mistral Small, hoặc DeepSeek V3.2 không có chi phí token API. Các nhà cung cấp host như Groq và Together AI cung cấp Llama 4 và DeepSeek với giá 0,11-0,50 USD/triệu token -- rẻ hơn nhiều so với API độc quyền. Lưu ý với tiếng Việt: do tokenizer của hầu hết mô hình được tối ưu cho tiếng Anh, văn bản tiếng Việt tiêu thụ nhiều token hơn, khiến việc tối ưu chi phí càng quan trọng hơn.

Câu Hỏi Thường Gặp Về Token AI Và Chi Phí API

Tiếng Việt tốn bao nhiêu token so với tiếng Anh?

Tiếng Việt tiêu thụ nhiều token hơn tiếng Anh đáng kể do cấu trúc dấu thanh và ký tự đặc biệt. Trung bình, một từ tiếng Việt tạo ra 1,5 đến 3 token, trong khi một từ tiếng Anh chỉ khoảng 1-1,3 token. Ví dụ, từ "Một" trong tiếng Việt có thể tốn tới 5 token, trong khi "One" chỉ mất 1 token. Điều này có nghĩa cùng một nội dung viết bằng tiếng Việt có thể tốn chi phí API cao hơn 50-100% so với tiếng Anh. Đây là hạn chế của tokenizer được tối ưu chủ yếu cho tiếng Anh, không phải lỗi của người dùng.

Tại sao token đầu ra đắt hơn token đầu vào?

Token đầu ra đắt gấp 3-5 lần vì cách các mô hình LLM sinh văn bản. Token đầu vào được xử lý song song trong một lượt tính toán duy nhất. Nhưng token đầu ra phải được sinh ra từng token một theo thứ tự -- mỗi token mới yêu cầu một lượt xử lý riêng qua toàn bộ mô hình. Quá trình sinh tuần tự này tốn nhiều tài nguyên tính toán và bộ nhớ hơn, khiến đầu ra đắt hơn nhiều. Ví dụ, Claude Sonnet 4.6 tính 3 USD/triệu token đầu vào nhưng 15 USD/triệu token đầu ra -- tỷ lệ 5:1.

Mô hình AI nào rẻ nhất để dùng API năm 2026?

Tính đến tháng 3 năm 2026, các mô hình API rẻ nhất theo nhà cung cấp: Amazon Nova Micro (0,035/0,14 USD/triệu token), GPT-5 Nano (0,05/0,40 USD), Gemini 2.0 Flash-Lite (0,075/0,30 USD), Mistral Small (0,10/0,30 USD), GPT-4.1 Nano (0,10/0,40 USD), Llama 4 Scout qua Groq (0,11/0,34 USD), Grok 4.1 Fast (0,20/0,50 USD), và DeepSeek V3.2 (0,28/0,42 USD). Tầm trung: Gemini 2.5 Flash (0,30/2,50 USD), GPT-4.1 Mini (0,40/1,60 USD), Claude Haiku 4.5 (1/5 USD). Cao cấp: Gemini 2.5 Pro (1,25/10 USD), GPT-4.1 (2/8 USD), Claude Sonnet 4.6 (3/15 USD), Claude Opus 4.6 (5/25 USD). Mô hình rẻ nhất phù hợp cho phân loại, trích xuất và Q&A đơn giản, nhưng suy luận phức tạp cần mô hình cao cấp hơn.

Chi phí dùng API AI hàng tháng cho startup Việt Nam là bao nhiêu?

Chi phí phụ thuộc vào mô hình và khối lượng sử dụng. Dự án nhẹ (100 yêu cầu/ngày với GPT-4.1 mini): khoảng 25.000-130.000 VND/tháng. Ứng dụng production (1.000 yêu cầu/ngày với GPT-4.1): khoảng 1.280.000-5.120.000 VND/tháng. Sử dụng chuyên sâu với mô hình cao cấp: có thể vượt 25.600.000 VND/tháng. Lưu ý rằng giá API tính bằng USD, nên tỷ giá USD/VND ảnh hưởng trực tiếp đến chi phí thực tế. Máy tính token của chúng tôi giúp ước tính chính xác dựa trên thông số cụ thể của bạn.

Prompt caching giúp giảm chi phí AI như thế nào?

Prompt caching lưu trữ các vector key-value của phần prompt lặp lại (như system prompt) để không phải tính toán lại mỗi yêu cầu. Token đã cache được tính phí chỉ bằng 10-50% giá thông thường, tùy nhà cung cấp. Đối với ứng dụng gửi cùng system prompt mỗi lần -- chatbot, trợ lý lập trình, xử lý tài liệu -- prompt caching có thể giảm tổng chi phí đầu vào lên tới 90%. OpenAI áp dụng prompt caching tự động, Anthropic và Google yêu cầu cấu hình rõ ràng.

Token và từ (word) khác nhau như thế nào?

Từ (word) là đơn vị ngôn ngữ phân tách bằng dấu cách. Token là đơn vị do tokenizer của mô hình định nghĩa -- có thể là một từ nguyên vẹn, một phần của từ, một ký tự đơn, hoặc dấu câu. Các từ phổ biến như "the" hay "is" thường là 1 token. Từ dài hoặc ít phổ biến bị tách thành nhiều token: "unbelievable" có thể thành "un", "believ", "able" (3 token). Với tiếng Việt, do dấu thanh (sắc, huyền, hỏi, ngã, nặng) và ký tự đặc biệt, mỗi từ thường tốn nhiều token hơn tiếng Anh. Đây là lý do giá theo token không ánh xạ trực tiếp với số từ.

Hình ảnh và file có tiêu tốn token trong mô hình AI đa phương tiện không?

Có. Khi sử dụng mô hình hỗ trợ hình ảnh như GPT-4o hoặc Gemini, hình ảnh được chuyển đổi thành token dựa trên độ phân giải. Một hình ảnh 1024x1024 tiêu thụ khoảng 765 token với GPT-4o. Hình ảnh độ phân giải cao hơn sử dụng nhiều token hơn, và chế độ "high detail" tốn nhiều hơn đáng kể so với "low detail". File PDF và tài liệu khác thường được chuyển đổi thành văn bản trước, sau đó được tokenize bình thường.

Giá API AI có giống nhau ở Việt Nam so với các nước khác không?

Có, giá API từ OpenAI, Anthropic và Google được tính bằng USD và áp dụng đồng nhất trên toàn cầu. Không có chênh lệch giá theo khu vực. Tuy nhiên, khi quy đổi sang VND, tỷ giá USD/VND ảnh hưởng đến chi phí thực tế. Với tỷ giá dao động quanh 25.600 VND/USD, developer và doanh nghiệp Việt Nam cần tính thêm yếu tố biến động tỷ giá khi lập kế hoạch ngân sách dài hạn. Ngoài ra, do tiếng Việt tiêu thụ nhiều token hơn tiếng Anh, chi phí xử lý nội dung tiếng Việt cao hơn so với nội dung tiếng Anh cùng độ dài.


Thuật Ngữ Quan Trọng

Token

Đơn vị nhỏ nhất của văn bản mà mô hình ngôn ngữ lớn xử lý. Một token có thể là một từ, một phần của từ, một ký tự, hoặc dấu câu. Hầu hết từ tiếng Anh là 1-2 token, từ tiếng Việt thường là 1,5-3 token.

Tokenizer

Thuật toán chuyển đổi văn bản thô thành token. Các mô hình khác nhau sử dụng tokenizer khác nhau (tiktoken cho OpenAI, SentencePiece cho Google), nên cùng một đoạn văn bản có thể cho số token khác nhau giữa các nhà cung cấp.

BPE (Byte Pair Encoding)

Thuật toán tokenization phổ biến nhất được các mô hình LLM hiện đại sử dụng. BPE xây dựng từ vựng bằng cách lặp lại việc ghép các cặp ký tự hoặc subword xuất hiện thường xuyên nhất. GPT, Claude và Llama đều sử dụng các biến thể của BPE.

Cửa sổ ngữ cảnh (Context Window)

Số token tối đa mà mô hình có thể xử lý trong một yêu cầu, bao gồm cả đầu vào và đầu ra. GPT-4.1 hỗ trợ 1 triệu token, Claude Opus 4.6 hỗ trợ 1 triệu token, Grok 4.1 Fast hỗ trợ 2 triệu token, và Gemini 2.5 Pro hỗ trợ tới 1 triệu token.

Prompt Caching

Tính năng tối ưu chi phí lưu trữ và tái sử dụng các cặp key-value đã tính toán từ prompt lặp lại, giảm cả độ trễ và chi phí token lên tới 90% cho phần đã cache.

Token đầu vào và đầu ra

Token đầu vào (input) là token trong prompt bạn gửi đến mô hình. Token đầu ra (output) là token do mô hình sinh ra trong phản hồi. Token đầu ra đắt gấp 3-5 lần do yêu cầu tính toán tuần tự.

Chi phí trên triệu token

Đơn vị định giá tiêu chuẩn cho API LLM. Các nhà cung cấp báo giá bằng USD trên 1 triệu token ($/1M token), tách riêng cho đầu vào và đầu ra. Tất cả giá API đều tính bằng USD, bất kể quốc gia của người dùng.