Máy tính token
Tính chi phí sử dụng mô hình ngôn ngữ AI. Ước tính token từ văn bản và so sánh giá giữa các mô hình như GPT-4, Claude và Gemini.
Máy Tính Token AI Là Gì?
Cách Tính Chi Phí Token AI
Công Thức Tính Chi Phí Token AI
- = Tổng chi phí của lệnh gọi API (tính bằng USD)
- = Số token đầu vào (prompt, system message và ngữ cảnh)
- = Số token đầu ra (phản hồi do mô hình sinh ra)
- = Giá mỗi 1 triệu token đầu vào của mô hình đã chọn
- = Giá mỗi 1 triệu token đầu ra của mô hình đã chọn
Ví Dụ Tính Chi Phí Token AI
Chatbot chăm sóc khách hàng cho sàn thương mại điện tử: 50.000 cuộc hội thoại/tháng
Hệ thống tóm tắt tin tức tự động: 1.000 bài viết mỗi ngày
Trợ lý lập trình AI cho đội ngũ 20 developer
Mẹo Giảm Chi Phí Token AI Hiệu Quả
- Chọn đúng mô hình cho từng loại tác vụ. Dùng mô hình giá rẻ (GPT-5 Mini, GPT-4.1 mini, Gemini 2.5 Flash-Lite, Claude Haiku, DeepSeek V3.2, Grok 4.1 Fast, Amazon Nova Micro) cho các tác vụ đơn giản như phân loại, trích xuất và tóm tắt. Chỉ dùng mô hình cao cấp (GPT-5.4, GPT-4.1, Claude Sonnet/Opus, Gemini 2.5 Pro, Grok 4) khi thực sự cần khả năng suy luận vượt trội. Phân luồng mô hình theo độ phức tạp tác vụ có thể tiết kiệm 40-60% chi phí.
- Kích hoạt prompt caching cho ngữ cảnh lặp lại. Nếu ứng dụng của bạn gửi cùng system prompt hoặc ngữ cảnh trong mỗi yêu cầu, prompt caching giảm chi phí token đầu vào lên tới 90%. OpenAI áp dụng tự động, Anthropic yêu cầu cấu hình cache_control trong header.
- Sử dụng Batch API cho khối lượng công việc không cần phản hồi tức thì. OpenAI và Anthropic cung cấp xử lý hàng loạt với mức giảm 50% giá token. Nếu tác vụ không yêu cầu kết quả real-time (báo cáo, phân tích hàng loạt, xử lý dữ liệu), hãy gom lại và tiết kiệm một nửa chi phí.
- Tinh gọn prompt một cách triệt để. Mỗi token trong prompt đều tốn tiền. Loại bỏ hướng dẫn thừa, system prompt dài dòng, và ngữ cảnh không cần thiết. Một prompt 500 token được viết chuẩn thường cho kết quả tốt hơn prompt 2.000 token lan man -- và rẻ hơn 75%.
- Giới hạn độ dài đầu ra bằng tham số max_tokens. Cài đặt max_tokens để ngăn mô hình sinh ra phản hồi dài không cần thiết. Nếu chỉ cần câu trả lời một dòng, giới hạn đầu ra ở 100 token thay vì để mô hình viết cả đoạn văn.
- Theo dõi và đặt cảnh báo chi tiêu. Sử dụng dashboard của nhà cung cấp hoặc công cụ bên thứ ba như Helicone để theo dõi tiêu thụ token theo endpoint, theo mô hình và theo người dùng. Đặt giới hạn chi tiêu cứng để tránh chi phí phát sinh do bug hoặc traffic đột biến.
- Cân nhắc mô hình mã nguồn mở cho tác vụ khối lượng lớn. Mô hình tự host như Llama 4 (Meta), Mistral Small, hoặc DeepSeek V3.2 không có chi phí token API. Các nhà cung cấp host như Groq và Together AI cung cấp Llama 4 và DeepSeek với giá 0,11-0,50 USD/triệu token -- rẻ hơn nhiều so với API độc quyền. Lưu ý với tiếng Việt: do tokenizer của hầu hết mô hình được tối ưu cho tiếng Anh, văn bản tiếng Việt tiêu thụ nhiều token hơn, khiến việc tối ưu chi phí càng quan trọng hơn.
Câu Hỏi Thường Gặp Về Token AI Và Chi Phí API
Tiếng Việt tốn bao nhiêu token so với tiếng Anh?
Tiếng Việt tiêu thụ nhiều token hơn tiếng Anh đáng kể do cấu trúc dấu thanh và ký tự đặc biệt. Trung bình, một từ tiếng Việt tạo ra 1,5 đến 3 token, trong khi một từ tiếng Anh chỉ khoảng 1-1,3 token. Ví dụ, từ "Một" trong tiếng Việt có thể tốn tới 5 token, trong khi "One" chỉ mất 1 token. Điều này có nghĩa cùng một nội dung viết bằng tiếng Việt có thể tốn chi phí API cao hơn 50-100% so với tiếng Anh. Đây là hạn chế của tokenizer được tối ưu chủ yếu cho tiếng Anh, không phải lỗi của người dùng.
Tại sao token đầu ra đắt hơn token đầu vào?
Token đầu ra đắt gấp 3-5 lần vì cách các mô hình LLM sinh văn bản. Token đầu vào được xử lý song song trong một lượt tính toán duy nhất. Nhưng token đầu ra phải được sinh ra từng token một theo thứ tự -- mỗi token mới yêu cầu một lượt xử lý riêng qua toàn bộ mô hình. Quá trình sinh tuần tự này tốn nhiều tài nguyên tính toán và bộ nhớ hơn, khiến đầu ra đắt hơn nhiều. Ví dụ, Claude Sonnet 4.6 tính 3 USD/triệu token đầu vào nhưng 15 USD/triệu token đầu ra -- tỷ lệ 5:1.
Mô hình AI nào rẻ nhất để dùng API năm 2026?
Tính đến tháng 3 năm 2026, các mô hình API rẻ nhất theo nhà cung cấp: Amazon Nova Micro (0,035/0,14 USD/triệu token), GPT-5 Nano (0,05/0,40 USD), Gemini 2.0 Flash-Lite (0,075/0,30 USD), Mistral Small (0,10/0,30 USD), GPT-4.1 Nano (0,10/0,40 USD), Llama 4 Scout qua Groq (0,11/0,34 USD), Grok 4.1 Fast (0,20/0,50 USD), và DeepSeek V3.2 (0,28/0,42 USD). Tầm trung: Gemini 2.5 Flash (0,30/2,50 USD), GPT-4.1 Mini (0,40/1,60 USD), Claude Haiku 4.5 (1/5 USD). Cao cấp: Gemini 2.5 Pro (1,25/10 USD), GPT-4.1 (2/8 USD), Claude Sonnet 4.6 (3/15 USD), Claude Opus 4.6 (5/25 USD). Mô hình rẻ nhất phù hợp cho phân loại, trích xuất và Q&A đơn giản, nhưng suy luận phức tạp cần mô hình cao cấp hơn.
Chi phí dùng API AI hàng tháng cho startup Việt Nam là bao nhiêu?
Chi phí phụ thuộc vào mô hình và khối lượng sử dụng. Dự án nhẹ (100 yêu cầu/ngày với GPT-4.1 mini): khoảng 25.000-130.000 VND/tháng. Ứng dụng production (1.000 yêu cầu/ngày với GPT-4.1): khoảng 1.280.000-5.120.000 VND/tháng. Sử dụng chuyên sâu với mô hình cao cấp: có thể vượt 25.600.000 VND/tháng. Lưu ý rằng giá API tính bằng USD, nên tỷ giá USD/VND ảnh hưởng trực tiếp đến chi phí thực tế. Máy tính token của chúng tôi giúp ước tính chính xác dựa trên thông số cụ thể của bạn.
Prompt caching giúp giảm chi phí AI như thế nào?
Prompt caching lưu trữ các vector key-value của phần prompt lặp lại (như system prompt) để không phải tính toán lại mỗi yêu cầu. Token đã cache được tính phí chỉ bằng 10-50% giá thông thường, tùy nhà cung cấp. Đối với ứng dụng gửi cùng system prompt mỗi lần -- chatbot, trợ lý lập trình, xử lý tài liệu -- prompt caching có thể giảm tổng chi phí đầu vào lên tới 90%. OpenAI áp dụng prompt caching tự động, Anthropic và Google yêu cầu cấu hình rõ ràng.
Token và từ (word) khác nhau như thế nào?
Từ (word) là đơn vị ngôn ngữ phân tách bằng dấu cách. Token là đơn vị do tokenizer của mô hình định nghĩa -- có thể là một từ nguyên vẹn, một phần của từ, một ký tự đơn, hoặc dấu câu. Các từ phổ biến như "the" hay "is" thường là 1 token. Từ dài hoặc ít phổ biến bị tách thành nhiều token: "unbelievable" có thể thành "un", "believ", "able" (3 token). Với tiếng Việt, do dấu thanh (sắc, huyền, hỏi, ngã, nặng) và ký tự đặc biệt, mỗi từ thường tốn nhiều token hơn tiếng Anh. Đây là lý do giá theo token không ánh xạ trực tiếp với số từ.
Hình ảnh và file có tiêu tốn token trong mô hình AI đa phương tiện không?
Có. Khi sử dụng mô hình hỗ trợ hình ảnh như GPT-4o hoặc Gemini, hình ảnh được chuyển đổi thành token dựa trên độ phân giải. Một hình ảnh 1024x1024 tiêu thụ khoảng 765 token với GPT-4o. Hình ảnh độ phân giải cao hơn sử dụng nhiều token hơn, và chế độ "high detail" tốn nhiều hơn đáng kể so với "low detail". File PDF và tài liệu khác thường được chuyển đổi thành văn bản trước, sau đó được tokenize bình thường.
Giá API AI có giống nhau ở Việt Nam so với các nước khác không?
Có, giá API từ OpenAI, Anthropic và Google được tính bằng USD và áp dụng đồng nhất trên toàn cầu. Không có chênh lệch giá theo khu vực. Tuy nhiên, khi quy đổi sang VND, tỷ giá USD/VND ảnh hưởng đến chi phí thực tế. Với tỷ giá dao động quanh 25.600 VND/USD, developer và doanh nghiệp Việt Nam cần tính thêm yếu tố biến động tỷ giá khi lập kế hoạch ngân sách dài hạn. Ngoài ra, do tiếng Việt tiêu thụ nhiều token hơn tiếng Anh, chi phí xử lý nội dung tiếng Việt cao hơn so với nội dung tiếng Anh cùng độ dài.
Thuật Ngữ Quan Trọng
Token
Đơn vị nhỏ nhất của văn bản mà mô hình ngôn ngữ lớn xử lý. Một token có thể là một từ, một phần của từ, một ký tự, hoặc dấu câu. Hầu hết từ tiếng Anh là 1-2 token, từ tiếng Việt thường là 1,5-3 token.
Tokenizer
Thuật toán chuyển đổi văn bản thô thành token. Các mô hình khác nhau sử dụng tokenizer khác nhau (tiktoken cho OpenAI, SentencePiece cho Google), nên cùng một đoạn văn bản có thể cho số token khác nhau giữa các nhà cung cấp.
BPE (Byte Pair Encoding)
Thuật toán tokenization phổ biến nhất được các mô hình LLM hiện đại sử dụng. BPE xây dựng từ vựng bằng cách lặp lại việc ghép các cặp ký tự hoặc subword xuất hiện thường xuyên nhất. GPT, Claude và Llama đều sử dụng các biến thể của BPE.
Cửa sổ ngữ cảnh (Context Window)
Số token tối đa mà mô hình có thể xử lý trong một yêu cầu, bao gồm cả đầu vào và đầu ra. GPT-4.1 hỗ trợ 1 triệu token, Claude Opus 4.6 hỗ trợ 1 triệu token, Grok 4.1 Fast hỗ trợ 2 triệu token, và Gemini 2.5 Pro hỗ trợ tới 1 triệu token.
Prompt Caching
Tính năng tối ưu chi phí lưu trữ và tái sử dụng các cặp key-value đã tính toán từ prompt lặp lại, giảm cả độ trễ và chi phí token lên tới 90% cho phần đã cache.
Token đầu vào và đầu ra
Token đầu vào (input) là token trong prompt bạn gửi đến mô hình. Token đầu ra (output) là token do mô hình sinh ra trong phản hồi. Token đầu ra đắt gấp 3-5 lần do yêu cầu tính toán tuần tự.
Chi phí trên triệu token
Đơn vị định giá tiêu chuẩn cho API LLM. Các nhà cung cấp báo giá bằng USD trên 1 triệu token ($/1M token), tách riêng cho đầu vào và đầu ra. Tất cả giá API đều tính bằng USD, bất kể quốc gia của người dùng.
