คำนวณ Token AI
คำนวณต้นทุนการใช้โมเดลภาษา AI ประมาณ Token จากข้อความและเปรียบเทียบราคาระหว่างโมเดลเช่น GPT-4, Claude, Gemini
Token ใน AI คืออะไร? หน่วยวัดต้นทุนของ LLM API
วิธีคำนวณค่าใช้จ่าย Token สำหรับ AI API
สูตรคำนวณค่าใช้จ่าย AI Token
- = ค่าใช้จ่ายรวมของการเรียก API หนึ่งครั้ง (ดอลลาร์สหรัฐ)
- = จำนวน input token (prompt, system message และ context ทั้งหมด)
- = จำนวน output token (คำตอบที่โมเดลสร้าง)
- = ราคา input ต่อ 1 ล้าน token ของโมเดลที่เลือก
- = ราคา output ต่อ 1 ล้าน token ของโมเดลที่เลือก
ตัวอย่างการคำนวณค่า Token สำหรับธุรกิจไทย
แชทบอทบริการลูกค้าภาษาไทย: 30,000 สนทนาต่อเดือน
ระบบสรุปข่าวภาษาไทย: 500 บทความต่อวัน
AI ช่วยเขียนโค้ดสำหรับทีม 10 คนในกรุงเทพฯ
เคล็ดลับลดค่าใช้จ่าย AI API สำหรับนักพัฒนาไทย
- เลือกโมเดลให้เหมาะกับงาน ใช้โมเดลราคาประหยัด (GPT-4.1 mini, Gemini 2.5 Flash-Lite, Claude Haiku, DeepSeek V3.2, Grok 4.1 Fast, Amazon Nova Micro, Mistral Small) สำหรับงานง่ายอย่างการจำแนกข้อความ สรุปเนื้อหา หรือตอบคำถามทั่วไป สงวนโมเดลพรีเมียม (GPT-5.4, Claude Sonnet/Opus, Gemini 2.5 Pro, Grok 4) ไว้สำหรับงานที่ต้องการเหตุผลซับซ้อน การแบ่งระดับโมเดลตามความยากของงานช่วยลดต้นทุนได้ 40-60%
- เขียน prompt ภาษาไทยให้กระชับ เนื่องจากภาษาไทยใช้ token มากกว่าภาษาอังกฤษ 2-4 เท่า ทุกตัวอักษรที่ตัดออกได้จะช่วยประหยัดค่าใช้จ่าย พิจารณาเขียน system prompt และคำสั่งเป็นภาษาอังกฤษ แล้วให้โมเดลตอบเป็นภาษาไทย วิธีนี้ช่วยลด token ในส่วน input ได้ 30-50%
- เปิดใช้ prompt caching สำหรับ context ที่ซ้ำกัน หากแอปพลิเคชันส่ง system prompt เดิมทุกคำขอ prompt caching ลดค่า input token ของส่วนที่ cache ได้สูงสุด 90% OpenAI ใช้ cache อัตโนมัติ ส่วน Anthropic ต้องตั้งค่า cache_control header
- ใช้ Batch API สำหรับงานที่ไม่ต้องการผลทันที OpenAI และ Anthropic ให้ส่วนลด 50% สำหรับ batch processing เหมาะกับงานวิเคราะห์ข้อมูล สร้างรายงาน หรือประมวลผลจำนวนมากที่รอได้ 24 ชั่วโมง
- จำกัดจำนวน output token ด้วย max_tokens ป้องกันไม่ให้โมเดลสร้างคำตอบยาวเกินจำเป็น เนื่องจาก output token แพงกว่า input 3-5 เท่า การกำหนดขีดจำกัดที่เหมาะสมช่วยประหยัดได้มาก
- พิจารณาใช้ Gemini สำหรับงานภาษาไทยจำนวนมาก เพราะ Gemini บน Vertex AI คิดค่าบริการตามจำนวนตัวอักษร (characters) ไม่ใช่ token และนับตัวอักษรไทย 1 ตัวเป็น 1 UTF-8 code point เท่ากับภาษาอังกฤษ จึงไม่มีส่วนต่างราคาเพราะภาษา ต่างจาก OpenAI ที่ภาษาไทยใช้ token มากกว่า
- ติดตามการใช้งานและตั้งแจ้งเตือนงบประมาณ ใช้ dashboard ของผู้ให้บริการหรือเครื่องมืออย่าง Helicone เพื่อติดตามปริมาณ token ตาม endpoint, โมเดล และผู้ใช้ ตั้งวงเงินสูงสุดเพื่อป้องกันค่าใช้จ่ายพุ่งจาก bug หรือ traffic ที่เพิ่มขึ้นกะทันหัน
คำถามที่พบบ่อยเกี่ยวกับ Token AI และราคา API
ภาษาไทยใช้ token มากกว่าภาษาอังกฤษกี่เท่า?
ภาษาไทยใช้ token มากกว่าภาษาอังกฤษประมาณ 2-4 เท่า สำหรับข้อความที่มีความหมายเดียวกัน สาเหตุหลักคือ BPE tokenizer ของ LLM ส่วนใหญ่ถูกฝึกจากข้อมูลภาษาอังกฤษเป็นหลัก ทำให้คำภาษาอังกฤษถูกบีบอัดเป็น 1-2 token ได้อย่างมีประสิทธิภาพ แต่ตัวอักษรไทยซึ่งใช้ UTF-8 encoding 3 byte ต่อตัวอักษร กลับถูกแบ่งเป็น 1 token ต่อ 1 ตัวอักษร (ในกรณี OpenAI) ตัวอย่างเช่น คำว่า "สวัสดี" ใช้ 6 token แต่ "Hello" ใช้เพียง 1 token ซึ่งหมายความว่าค่า API ภาษาไทยแพงกว่าภาษาอังกฤษตามสัดส่วนเดียวกัน
Token คืออะไรใน AI ต่างจากคำ (word) อย่างไร?
Token คือหน่วยย่อยที่ AI ใช้ประมวลผลข้อความ ซึ่งไม่เหมือนกับ "คำ" ในภาษาปกติ token อาจเป็นคำทั้งคำ ส่วนหนึ่งของคำ ตัวอักษรเดียว หรือเครื่องหมายวรรคตอน คำที่พบบ่อยอย่าง "the" หรือ "is" มักเป็น 1 token แต่คำยาวหรือไม่ค่อยพบจะถูกแบ่งเป็นหลาย token เช่น "unbelievable" อาจถูกแบ่งเป็น "un", "believ", "able" (3 token) สำหรับภาษาไทยที่ไม่มีช่องว่างระหว่างคำ tokenizer จะแบ่งตามตัวอักษรหรือกลุ่มตัวอักษรแทน ทำให้ 1 คำภาษาไทยอาจใช้ 3-8 token
โมเดล AI ที่ถูกที่สุดสำหรับใช้งาน API ในปี 2026 คือตัวไหน?
ในเดือนมีนาคม 2026 โมเดลที่ถูกที่สุดเรียงตามราคา (input/output ต่อ 1M token) คือ Amazon Nova Micro ($0.035/$0.14), GPT-5 Nano ($0.05/$0.40), Gemini 2.0 Flash-Lite ($0.075/$0.30), Mistral Small ($0.10/$0.30), GPT-4.1 Nano ($0.10/$0.40), Llama 4 Scout ผ่าน Groq ($0.11/$0.34), Grok 4.1 Fast ($0.20/$0.50) และ DeepSeek V3.2 ($0.28/$0.42) สำหรับงานระดับกลาง มี Gemini 2.5 Flash ($0.30/$2.50), GPT-4.1 Mini ($0.40/$1.60), Claude Haiku 4.5 ($1/$5) และ o4-mini ($1.10/$4.40) ระดับพรีเมียม ได้แก่ Gemini 2.5 Pro ($1.25/$10), GPT-5 ($1.25/$10), GPT-4.1 ($2/$8), Claude Sonnet 4.6 ($3/$15) และ Claude Opus 4.6 ($5/$25)
ChatGPT API ราคาเท่าไหร่ คิดเงินยังไง?
ChatGPT API คิดค่าบริการแบบ pay-per-use ตามจำนวน token ที่ใช้ ไม่ใช่ค่ารายเดือนแบบ ChatGPT Plus (699 บาท/เดือน) ราคาแยกตามโมเดล เช่น GPT-4.1 mini คิด $0.40 ต่อ 1M input token และ $1.60 ต่อ 1M output token ส่วน GPT-4.1 คิด $2/$8 ต่อ 1M token ในทางปฏิบัติ หากส่งข้อความภาษาไทย 500 ตัวอักษรและรับคำตอบ 300 token ด้วย GPT-4.1 mini จะมีค่าใช้จ่ายประมาณ $0.00068 (0.024 บาท) ต่อคำขอ ซึ่งหมายความว่า งบ 350 บาท (10 ดอลลาร์) สามารถเรียก API ได้ราว 14,700 ครั้ง
Prompt caching คืออะไร ช่วยลดค่าใช้จ่ายได้อย่างไร?
Prompt caching คือเทคโนโลยีที่เก็บ key-value vectors ของส่วน prompt ที่ถูกส่งซ้ำ (เช่น system prompt) ไว้ในหน่วยความจำ เพื่อไม่ต้องคำนวณใหม่ทุกครั้ง token ที่ cache แล้วจะถูกคิดเพียง 10-50% ของราคาปกติ ขึ้นอยู่กับผู้ให้บริการ สำหรับแอปพลิเคชันที่ส่ง system prompt เดิมกับทุกคำขอ เช่น แชทบอท ผู้ช่วยเขียนโค้ด หรือ RAG pipeline prompt caching สามารถลดค่า input ได้สูงสุด 90% OpenAI เปิด cache อัตโนมัติ ส่วน Anthropic และ Google ต้องตั้งค่าเอง
ข้อความภาษาไทย 1,000 ตัวอักษรใช้กี่ token?
สำหรับ OpenAI (GPT series) ข้อความภาษาไทย 1,000 ตัวอักษรใช้ประมาณ 800-1,200 token ขึ้นอยู่กับเนื้อหา ข้อความที่มีสระ วรรณยุกต์ และตัวเลขผสมจะใช้ token มากกว่าข้อความพยัญชนะล้วน สำหรับ Gemini บน Vertex AI ที่คิดตามตัวอักษร 1,000 ตัวอักษรไทยจะถูกนับเป็น 1,000 characters เท่ากับภาษาอังกฤษ ซึ่งประหยัดกว่ามาก เปรียบเทียบกัน: ข้อความภาษาอังกฤษ 1,000 ตัวอักษรใช้เพียง 250-333 token (OpenAI) ดังนั้นภาษาไทยจึงใช้ token มากกว่า 3-4 เท่า
เปรียบเทียบ Claude API กับ GPT API อันไหนคุ้มกว่า?
ขึ้นอยู่กับงานและปริมาณการใช้ สำหรับงานทั่วไปปริมาณมาก GPT-4.1 mini ($0.40/$1.60) ถูกกว่า Claude Haiku 4.5 ($1/$5) ประมาณ 2.5 เท่า สำหรับงานคุณภาพสูง Claude Sonnet 4.6 ($3/$15) และ GPT-5.4 ($2.50/$15) มีราคาใกล้เคียงกัน แต่ Claude โดดเด่นด้านการเขียนโค้ดและเข้าใจบริบทยาว ส่วน GPT-4.1 ($2/$8) มี context window 1 ล้าน token เหมาะกับ codebase ขนาดใหญ่ สำหรับนักพัฒนาไทย แนะนำเริ่มจากโมเดลถูก (GPT-4.1 mini หรือ Gemini 2.5 Flash) ทดสอบคุณภาพก่อน แล้วค่อยเลื่อนขึ้นมาใช้โมเดลพรีเมียมเฉพาะงานที่ต้องการ
รูปภาพและไฟล์ใช้ token อย่างไรในโมเดล AI แบบ multimodal?
รูปภาพจะถูกแปลงเป็น token ตามความละเอียด สำหรับ GPT-4o รูปขนาด 1024x1024 พิกเซลใช้ประมาณ 765 token คำนวณจากการแบ่งรูปเป็น tile ขนาด 512x512 (170 token ต่อ tile) บวกค่าฐาน 85 token รูปที่ละเอียดสูงกว่าจะใช้ token มากขึ้น โหมด "high detail" แพงกว่า "low detail" อย่างมาก PDF และเอกสารอื่นจะถูกแปลงเป็นข้อความก่อนแล้วค่อยนับ token ตามปกติ แอปพลิเคชันที่รับรูปภาพจำนวนมากควรประมาณค่า token ของรูปภาพเป็นพิเศษ
คำศัพท์สำคัญเกี่ยวกับ Token และ AI API
Token
หน่วยย่อยที่สุดที่ LLM ใช้ประมวลผลข้อความ อาจเป็นคำ ส่วนของคำ ตัวอักษร หรือเครื่องหมาย คำภาษาอังกฤษทั่วไปใช้ 1-2 token แต่ตัวอักษรไทย 1 ตัวอาจใช้ 1 token ทั้งตัว
Tokenizer
อัลกอริทึมที่แปลงข้อความดิบเป็น token แต่ละโมเดลใช้ tokenizer ต่างกัน เช่น OpenAI ใช้ tiktoken, Google ใช้ SentencePiece ทำให้ข้อความเดียวกันอาจมีจำนวน token ต่างกันในแต่ละผู้ให้บริการ
BPE (Byte Pair Encoding)
อัลกอริทึม tokenization ที่นิยมใช้มากที่สุดใน LLM สมัยใหม่ สร้าง vocabulary โดยการรวมคู่ byte ที่พบบ่อยที่สุดซ้ำไปเรื่อย ๆ GPT, Claude, Llama และ Mistral ล้วนใช้รูปแบบของ BPE
Context Window
จำนวน token สูงสุดที่โมเดลรับได้ในคำขอเดียว รวมทั้ง input และ output ตัวอย่าง: GPT-4.1 รองรับ 1 ล้าน token, Claude Opus 4.6 รองรับ 1 ล้าน token, Grok 4.1 Fast รองรับ 2 ล้าน token
Prompt Caching
ฟีเจอร์ลดต้นทุนที่เก็บ key-value pairs ของ prompt prefix ที่ซ้ำกันไว้ใช้ใหม่ ลดทั้ง latency และค่า token ได้สูงสุด 90% สำหรับส่วนที่ cache แล้ว
Input Token / Output Token
Input token คือ token ใน prompt ที่ส่งไปยังโมเดล Output token คือ token ที่โมเดลสร้างเป็นคำตอบ Output แพงกว่า input 3-5 เท่า เพราะต้องสร้างทีละ token ตามลำดับ
ราคาต่อล้าน Token (Cost per Million Tokens)
หน่วยมาตรฐานในการตั้งราคา LLM API ผู้ให้บริการจะระบุราคาเป็นดอลลาร์ต่อ 1 ล้าน token ($/1M tokens) โดยแยก input และ output ตัวอย่าง: Claude Sonnet 4.6 คิด $3/1M input และ $15/1M output
