Kalkulator token
Kira kos penggunaan model bahasa AI. Anggarkan token daripada teks dan bandingkan harga GPT-4, Claude, Gemini dan model lain.
Apa Itu Kalkulator Token AI?
Cara Mengira Kos Token AI
Formula Kos Token AI
- = Jumlah kos panggilan API (dalam USD)
- = Bilangan token input (prompt, mesej sistem, dan konteks)
- = Bilangan token output (respons yang dijana oleh model)
- = Harga per 1 juta token input bagi model yang dipilih
- = Harga per 1 juta token output bagi model yang dipilih
Contoh Pengiraan Kos Token AI
Chatbot Khidmat Pelanggan E-Dagang: 50,000 Perbualan Sebulan
Ringkasan Berita Automatik: 1,000 Artikel Sehari
Pembantu Kod AI untuk Pasukan Pembangunan 15 Orang
Tips Mengurangkan Kos Token API AI
- Pilih model yang sesuai untuk setiap tugas. Gunakan model bajet seperti GPT-5 Mini, GPT-4.1 mini, Gemini 2.5 Flash-Lite, Claude Haiku, DeepSeek V3.2, Grok 4.1 Fast, Amazon Nova Micro, atau Mistral Small untuk tugas mudah seperti klasifikasi, pengekstrakan, dan ringkasan. Simpan model premium seperti GPT-5.4, Claude Sonnet/Opus, Gemini 2.5 Pro, dan Grok 4 untuk tugas yang benar-benar memerlukan penaakulan unggul. Penghalaan model berdasarkan kerumitan tugas boleh mengurangkan kos sebanyak 40-60%.
- Aktifkan prompt caching untuk konteks berulang. Jika aplikasi anda menghantar prompt sistem atau konteks yang sama dengan setiap permintaan, prompt caching boleh mengurangkan kos token input sehingga 90%. OpenAI menggunakannya secara automatik, manakala Anthropic memerlukan header cache_control yang jelas.
- Gunakan Batch API untuk beban kerja yang tidak memerlukan respons segera. OpenAI dan Anthropic menawarkan pemprosesan kelompok pada diskaun 50% daripada harga token. Jika tugas anda tidak memerlukan hasil masa nyata (laporan, analisis pukal, pemprosesan data), prosesnya secara kelompok dan jimat separuh kos.
- Ringkaskan prompt anda dengan tegas. Setiap token dalam input anda menelan kos. Buang arahan yang tidak perlu, prompt sistem yang bertele-tele, dan konteks berlebihan. Prompt yang dirangka dengan baik sebanyak 500 token sering mengatasi prompt panjang 2,000 token -- dan kos 75% lebih murah.
- Hadkan panjang token output. Tetapkan parameter max_tokens untuk menghalang model daripada menjana respons yang terlalu panjang. Jika anda perlukan jawapan satu ayat, hadkan output kepada 100 token dan bukannya membiarkan model menulis perenggan.
- Pantau penggunaan dan tetapkan amaran perbelanjaan. Gunakan papan pemuka penggunaan penyedia anda atau alat pihak ketiga seperti Helicone untuk menjejak penggunaan token mengikut endpoint, model, dan pengguna. Tetapkan had perbelanjaan keras untuk mengelak kos tidak terkawal daripada pepijat atau lonjakan trafik.
- Pertimbangkan model sumber terbuka untuk tugas volum tinggi berkompleksiti rendah. Model hos sendiri seperti Llama 4 (Meta), Mistral Small, atau DeepSeek V3.2 tidak mempunyai kos per token. Penyedia terurus seperti Groq dan Together AI menawarkan inferens Llama 4 dan DeepSeek pada USD 0.11-0.50 per juta token -- jauh lebih murah daripada API proprietari.
Soalan Lazim Mengenai Token AI dan Harga API
Berapa token yang dihasilkan daripada 1,000 perkataan teks bahasa Melayu?
Lebih kurang 1,500 hingga 2,000 token. Bahasa Melayu menghasilkan lebih banyak token berbanding bahasa Inggeris kerana struktur perkataan yang lebih panjang. Sebagai perbandingan, 1,000 perkataan Inggeris menghasilkan kira-kira 1,333 token. Perkataan pendek seperti "di" atau "dan" biasanya 1 token, manakala perkataan panjang seperti "mempertanggungjawabkan" boleh menghasilkan 3-5 token. Bilangan tepat bergantung pada tokenizer yang digunakan oleh setiap model.
Mengapa token output lebih mahal daripada token input?
Token output berkos 3-5x lebih tinggi kerana cara LLM menjana teks. Token input diproses dalam satu forward pass melalui model, dengan semua token dikira secara selari. Token output pula mesti dijana satu per satu secara berurutan -- setiap token baharu memerlukan forward pass berasingan. Proses penjanaan berurutan ini jauh lebih intensif dari segi pengiraan dan memori. Contohnya, Claude Sonnet 4.6 mengenakan USD 3 per juta token input tetapi USD 15 per juta token output -- nisbah 5:1.
Berapakah kos penggunaan API ChatGPT sebulan untuk startup di Malaysia?
Kos bulanan bergantung pada model dan jumlah penggunaan. Untuk projek ringan (100 permintaan/hari dengan GPT-4.1 mini), kos bulanan sekitar USD 1-5 (RM4-22). Untuk aplikasi produksi dengan GPT-4.1 (1,000 permintaan/hari), jangkakan USD 50-200/bulan (RM223-890). Untuk penggunaan intensif dengan model premium, kos boleh melebihi USD 1,000/bulan (RM4,450). Kalkulator kami membantu menganggarkan kos tepat berdasarkan parameter penggunaan anda.
Model AI manakah yang paling murah untuk kegunaan API pada 2026?
Pada Mac 2026, pilihan API paling murah mengikut penyedia ialah: Amazon Nova Micro (USD 0.035/0.14 per 1J token), GPT-5 Nano (USD 0.05/0.40), Gemini 2.0 Flash-Lite (USD 0.075/0.30), Mistral Small (USD 0.10/0.30), GPT-4.1 Nano (USD 0.10/0.40), Llama 4 Scout melalui Groq (USD 0.11/0.34), dan DeepSeek V3.2 (USD 0.28/0.42). Untuk bajet pertengahan, pilihan kuat termasuk Gemini 2.5 Flash (USD 0.30/2.50), GPT-4.1 Mini (USD 0.40/1.60), dan Claude Haiku 4.5 (USD 1/5). Pilihan terbaik bergantung pada keperluan kualiti anda.
Apa itu tetingkap konteks (context window) pada model AI?
Tetingkap konteks ialah bilangan maksimum token yang boleh diproses oleh model dalam satu permintaan, termasuk input dan output. GPT-4.1 menyokong sehingga 1 juta token, Claude Opus 4.6 dan Sonnet 4.6 sehingga 1 juta token, Gemini 2.5 Pro sehingga 1 juta token, Grok 4.1 Fast sehingga 2 juta token, dan DeepSeek V3.2 sehingga 128,000 token. Apabila perbualan melebihi tetingkap konteks, model kehilangan akses kepada mesej-mesej awal.
Bagaimana prompt caching mengurangkan kos AI?
Prompt caching menyimpan vektor key-value bagi awalan prompt yang berulang (seperti prompt sistem) supaya ia tidak perlu dikira semula pada setiap permintaan. Token yang dicache dicaj pada kadar 10-50% daripada harga token input biasa. Untuk aplikasi yang menghantar prompt sistem yang sama dengan setiap permintaan -- chatbot, pembantu pengekodan, pemproses dokumen -- prompt caching boleh mengurangkan jumlah kos input sehingga 90%. OpenAI menggunakan prompt caching secara automatik, manakala Anthropic dan Google memerlukan konfigurasi yang jelas.
Adakah harga API AI sama di Malaysia dengan negara lain?
Ya, harga API daripada OpenAI, Anthropic, Google, dan xAI ditetapkan dalam dolar AS (USD) dan dikenakan secara seragam di seluruh dunia. Tiada perbezaan harga serantau untuk API. Walau bagaimanapun, apabila menukar kepada Ringgit Malaysia, kadar pertukaran USD/MYR mempengaruhi kos efektif. Pada Mac 2026, USD 1 bersamaan lebih kurang RM4.45. Pembangun Malaysia perlu mengambil kira turun naik kadar pertukaran semasa merancang bajet jangka panjang.
Apakah perbezaan antara token dan perkataan?
Perkataan ialah unit bahasa yang dipisahkan oleh ruang. Token ialah unit yang ditentukan oleh tokenizer model -- ia boleh berupa perkataan penuh, sebahagian perkataan, aksara tunggal, atau tanda baca. Perkataan biasa seperti 'the' atau 'is' biasanya satu token. Perkataan yang lebih panjang atau kurang biasa dipecah kepada beberapa token: 'unbelievable' mungkin menjadi 'un', 'believ', 'able' (3 token). Nombor, kod, dan teks bukan Inggeris biasanya memerlukan lebih banyak token per perkataan. Inilah sebab harga berasaskan token tidak berkadar langsung dengan bilangan perkataan.
Istilah Penting
Token
Unit terkecil teks yang diproses oleh model bahasa besar. Boleh berupa perkataan, sebahagian perkataan, aksara, atau tanda baca. Kebanyakan perkataan Inggeris ialah 1-2 token, manakala perkataan Melayu biasanya 1.5-2 token.
Tokenizer
Algoritma yang menukar teks mentah kepada token. Model berlainan menggunakan tokenizer berbeza (contohnya tiktoken untuk OpenAI, SentencePiece untuk Google), bermakna teks yang sama boleh mempunyai bilangan token berlainan antara penyedia.
LLM (Model Bahasa Besar)
Model kecerdasan buatan yang dilatih dengan set data teks dalam jumlah besar untuk memahami dan menjana bahasa semula jadi. Contoh: GPT-5.4 (OpenAI), Claude Opus/Sonnet 4.6 (Anthropic), Gemini 2.5 Pro (Google), Grok 4 (xAI), DeepSeek V3.2, dan Llama 4 (Meta).
Tetingkap Konteks (Context Window)
Bilangan maksimum token yang boleh diproses oleh model dalam satu permintaan, termasuk input dan output. Saiz tetingkap konteks berbeza mengikut model -- GPT-4.1 menyokong 1 juta, Grok 4.1 Fast menyokong 2 juta token.
Prompt Caching
Ciri pengoptimuman kos yang menyimpan dan menggunakan semula pasangan key-value yang dikira daripada awalan prompt berulang, mengurangkan kedua-dua kependaman dan kos token sehingga 90% untuk bahagian yang dicache.
Token Input dan Output
Token input ialah token dalam prompt yang dihantar kepada model. Token output ialah token yang dijana oleh model dalam responsnya. Token output berkos 3-5x lebih mahal kerana pengiraan berurutan yang diperlukan untuk menjana setiap satu.
Kos Per Juta Token
Unit harga standard untuk API LLM. Penyedia menyebut harga sebagai dolar per 1 juta token (ditulis sebagai USD/1J token), secara berasingan untuk input dan output.
