Smart Calculators

Smart

Calculators

Kalkulator token

Kira kos penggunaan model bahasa AI. Anggarkan token daripada teks dan bandingkan harga GPT-4, Claude, Gemini dan model lain.

Kalkulator token. Kiraan token AI dan anggaran kos API untuk model LLM.
Kalkulator token menganggarkan bilangan token dalam teks dan mengira kos API untuk model AI seperti GPT, Claude, Gemini, Grok dan DeepSeek. Ia menukar panjang teks kepada token menggunakan nisbah piawai lebih kurang 1 token bagi setiap 4 aksara, kemudian mengenakan harga setiap juta token bagi setiap model untuk memaparkan kos input dan output serta-merta.

Apa Itu Kalkulator Token AI?

Kalkulator token AI ialah alat yang menganggarkan bilangan token dalam teks dan mengira kos pemprosesan teks tersebut melalui API model bahasa besar (LLM) seperti GPT, Claude, Gemini, Grok, DeepSeek, Mistral, dan Llama. Token ialah unit terkecil yang digunakan oleh model AI untuk membaca dan menjana teks -- satu token boleh mewakili satu perkataan, sebahagian perkataan, atau aksara tunggal.
Bagi pembangun perisian dan perniagaan di Malaysia yang membina aplikasi berkuasa AI, memahami kos token amat penting untuk merancang bajet dan mengawal perbelanjaan. Setiap panggilan API kepada LLM dicaj berdasarkan bilangan token input (prompt anda) dan token output (respons model). Satu panggilan API mungkin hanya berkos beberapa sen, tetapi pada skala besar -- beribu atau berjuta permintaan sehari -- kos token boleh menjadi perbelanjaan utama.
Sebagai panduan umum, 1 token bersamaan lebih kurang 4 aksara teks bahasa Inggeris, atau kira-kira 0.75 perkataan. Ini bermakna 1,000 perkataan teks Inggeris menghasilkan lebih kurang 1,333 token. Untuk bahasa Melayu, nisbahnya sedikit berbeza kerana struktur perkataan yang lebih panjang -- purata 1 perkataan Melayu menghasilkan 1.5 hingga 2 token. Bilangan tepat berbeza mengikut model kerana setiap penyedia menggunakan tokenizer yang berlainan: OpenAI menggunakan tiktoken (berasaskan BPE), Anthropic menggunakan tokenizer sendiri, dan Google menggunakan SentencePiece.

Cara Mengira Kos Token AI

Untuk mengira kos panggilan API AI, anda memerlukan tiga maklumat utama: bilangan token input, bilangan token output, dan harga per token bagi model yang dipilih.
Berikut langkah-langkahnya:
1. Anggarkan token input anda. Tampal teks prompt ke dalam pengira token, atau gunakan anggaran 1 token per 4 aksara (1,333 token per 1,000 perkataan teks Inggeris). Untuk bahasa Melayu, bahagikan bilangan aksara dengan 3 untuk anggaran lebih tepat.
2. Anggarkan token output anda. Ini ialah jangkaan panjang respons model. Jawapan ringkas mungkin 100-300 token; penjelasan terperinci boleh mencapai 1,000-2,000 token.
3. Semak harga model. Penyedia AI menerbitkan kadar sebagai kos per 1 juta token, dengan harga berasingan untuk input dan output.
4. Gunakan formula kos (lihat di bawah).
Contoh: jika anda menghantar prompt 2,000 token kepada Claude Sonnet 4.6 (USD 3 per 1J token input) dan menerima respons 500 token (USD 15 per 1J token output), kosnya ialah: (2,000 / 1,000,000 x USD 3) + (500 / 1,000,000 x USD 15) = USD 0.006 + USD 0.0075 = USD 0.0135 per permintaan, bersamaan kira-kira RM0.06. Pada 10,000 permintaan sehari, jumlahnya RM600 sehari atau lebih kurang RM18,000 sebulan.
Token output biasanya 3-5x lebih mahal daripada token input kerana menjana setiap token output memerlukan satu forward pass berasingan melalui model, manakala semua token input diproses secara selari dalam satu pas tunggal.

Formula Kos Token AI

C=Tin×Pin1,000,000+Tout×Pout1,000,000C = \frac{T_{in} \times P_{in}}{1{,}000{,}000} + \frac{T_{out} \times P_{out}}{1{,}000{,}000}
  • CC = Jumlah kos panggilan API (dalam USD)
  • TinT_{in} = Bilangan token input (prompt, mesej sistem, dan konteks)
  • ToutT_{out} = Bilangan token output (respons yang dijana oleh model)
  • PinP_{in} = Harga per 1 juta token input bagi model yang dipilih
  • PoutP_{out} = Harga per 1 juta token output bagi model yang dipilih
Untuk mengira kos bulanan atau tahunan pada skala besar, kembangkan formula dengan mengambil kira jumlah permintaan:
Cbulanan=(Tin×Pin+Tout×Pout1,000,000)×R×30C_{bulanan} = \left(\frac{T_{in} \times P_{in} + T_{out} \times P_{out}}{1{,}000{,}000}\right) \times R \times 30
Di mana $R$ ialah bilangan permintaan API sehari. Untuk mendapatkan anggaran dalam Ringgit Malaysia, darabkan hasil pengiraan USD dengan kadar pertukaran semasa (sekitar RM4.45 per USD pada Mac 2026). Jika anda menggunakan prompt caching (tersedia daripada OpenAI, Anthropic, dan Google), token input yang dicache dicaj pada kadar 10-50% daripada harga standard, mengurangkan kos dengan ketara bagi aplikasi dengan prompt sistem berulang.

Contoh Pengiraan Kos Token AI

Chatbot Khidmat Pelanggan E-Dagang: 50,000 Perbualan Sebulan

Sebuah syarikat e-dagang di Kuala Lumpur menggunakan chatbot khidmat pelanggan berkuasa GPT-4.1 mini (USD 0.40 per 1J token input, USD 1.60 per 1J token output). Setiap perbualan purata 800 token input (prompt sistem + mesej pelanggan + sejarah perbualan) dan 400 token output (jawapan bot).
Kos input: 50,000 x 800 / 1,000,000 x USD 0.40 = USD 16.00 Kos output: 50,000 x 400 / 1,000,000 x USD 1.60 = USD 32.00 Jumlah kos bulanan: USD 48.00 (kira-kira RM214)
Dengan prompt caching untuk prompt sistem 300 token (diskaun 50%), kos input turun kepada lebih kurang USD 13.00 -- menjimatkan RM13 sebulan. Jika menggunakan model premium seperti Claude Sonnet 4.6 (USD 3/USD 15 per 1J token), beban kerja yang sama menelan kos USD 1,020/bulan (RM4,539) -- lebih 21x mahal. Pemilihan model ialah tuas terbesar untuk pengoptimuman kos.

Ringkasan Berita Automatik: 1,000 Artikel Sehari

Sebuah portal berita Malaysia meringkaskan 1,000 artikel setiap hari. Setiap artikel purata 3,000 token input, dan ringkasan lebih kurang 300 token output. Mereka menggunakan Gemini 3 Flash (USD 0.50 per 1J input, USD 3.00 per 1J output) untuk kecekapan kos.
Kos harian input: 1,000 x 3,000 / 1,000,000 x USD 0.50 = USD 1.50 Kos harian output: 1,000 x 300 / 1,000,000 x USD 3.00 = USD 0.90 Jumlah harian: USD 2.40 | Jumlah bulanan: USD 72.00 (kira-kira RM320)
Jika bertukar kepada Claude Opus 4.6 (USD 5/USD 25 per 1J token) untuk ringkasan berkualiti lebih tinggi, kos bulanan melonjak kepada USD 2,475 (RM11,014) -- peningkatan 34x. Untuk kes penggunaan ini, model bajet memberikan kualiti yang boleh diterima pada sebahagian kecil daripada harga.

Pembantu Kod AI untuk Pasukan Pembangunan 15 Orang

Sebuah syarikat teknologi di Cyberjaya menggunakan pembantu kod berkuasa Claude Sonnet 4.6 (USD 3 per 1J input, USD 15 per 1J output) untuk pasukan 15 pembangun. Setiap pembangun membuat kira-kira 40 permintaan sehari, dengan purata 2,500 token input (konteks kod + soalan) dan 800 token output (cadangan kod + penjelasan).
Permintaan harian: 15 x 40 = 600 Kos harian input: 600 x 2,500 / 1,000,000 x USD 3.00 = USD 4.50 Kos harian output: 600 x 800 / 1,000,000 x USD 15.00 = USD 7.20 Jumlah harian: USD 11.70 | Jumlah bulanan (22 hari bekerja): USD 257.40 (kira-kira RM1,145)
Itu bersamaan lebih kurang RM76 setiap pembangun sebulan -- kos secawan kopi dua kali seminggu. Berbanding peningkatan produktiviti daripada bantuan AI, ini memberikan pulangan pelaburan yang sangat baik.

Tips Mengurangkan Kos Token API AI

  • Pilih model yang sesuai untuk setiap tugas. Gunakan model bajet seperti GPT-5 Mini, GPT-4.1 mini, Gemini 2.5 Flash-Lite, Claude Haiku, DeepSeek V3.2, Grok 4.1 Fast, Amazon Nova Micro, atau Mistral Small untuk tugas mudah seperti klasifikasi, pengekstrakan, dan ringkasan. Simpan model premium seperti GPT-5.4, Claude Sonnet/Opus, Gemini 2.5 Pro, dan Grok 4 untuk tugas yang benar-benar memerlukan penaakulan unggul. Penghalaan model berdasarkan kerumitan tugas boleh mengurangkan kos sebanyak 40-60%.
  • Aktifkan prompt caching untuk konteks berulang. Jika aplikasi anda menghantar prompt sistem atau konteks yang sama dengan setiap permintaan, prompt caching boleh mengurangkan kos token input sehingga 90%. OpenAI menggunakannya secara automatik, manakala Anthropic memerlukan header cache_control yang jelas.
  • Gunakan Batch API untuk beban kerja yang tidak memerlukan respons segera. OpenAI dan Anthropic menawarkan pemprosesan kelompok pada diskaun 50% daripada harga token. Jika tugas anda tidak memerlukan hasil masa nyata (laporan, analisis pukal, pemprosesan data), prosesnya secara kelompok dan jimat separuh kos.
  • Ringkaskan prompt anda dengan tegas. Setiap token dalam input anda menelan kos. Buang arahan yang tidak perlu, prompt sistem yang bertele-tele, dan konteks berlebihan. Prompt yang dirangka dengan baik sebanyak 500 token sering mengatasi prompt panjang 2,000 token -- dan kos 75% lebih murah.
  • Hadkan panjang token output. Tetapkan parameter max_tokens untuk menghalang model daripada menjana respons yang terlalu panjang. Jika anda perlukan jawapan satu ayat, hadkan output kepada 100 token dan bukannya membiarkan model menulis perenggan.
  • Pantau penggunaan dan tetapkan amaran perbelanjaan. Gunakan papan pemuka penggunaan penyedia anda atau alat pihak ketiga seperti Helicone untuk menjejak penggunaan token mengikut endpoint, model, dan pengguna. Tetapkan had perbelanjaan keras untuk mengelak kos tidak terkawal daripada pepijat atau lonjakan trafik.
  • Pertimbangkan model sumber terbuka untuk tugas volum tinggi berkompleksiti rendah. Model hos sendiri seperti Llama 4 (Meta), Mistral Small, atau DeepSeek V3.2 tidak mempunyai kos per token. Penyedia terurus seperti Groq dan Together AI menawarkan inferens Llama 4 dan DeepSeek pada USD 0.11-0.50 per juta token -- jauh lebih murah daripada API proprietari.

Soalan Lazim Mengenai Token AI dan Harga API

Berapa token yang dihasilkan daripada 1,000 perkataan teks bahasa Melayu?

Lebih kurang 1,500 hingga 2,000 token. Bahasa Melayu menghasilkan lebih banyak token berbanding bahasa Inggeris kerana struktur perkataan yang lebih panjang. Sebagai perbandingan, 1,000 perkataan Inggeris menghasilkan kira-kira 1,333 token. Perkataan pendek seperti "di" atau "dan" biasanya 1 token, manakala perkataan panjang seperti "mempertanggungjawabkan" boleh menghasilkan 3-5 token. Bilangan tepat bergantung pada tokenizer yang digunakan oleh setiap model.

Mengapa token output lebih mahal daripada token input?

Token output berkos 3-5x lebih tinggi kerana cara LLM menjana teks. Token input diproses dalam satu forward pass melalui model, dengan semua token dikira secara selari. Token output pula mesti dijana satu per satu secara berurutan -- setiap token baharu memerlukan forward pass berasingan. Proses penjanaan berurutan ini jauh lebih intensif dari segi pengiraan dan memori. Contohnya, Claude Sonnet 4.6 mengenakan USD 3 per juta token input tetapi USD 15 per juta token output -- nisbah 5:1.

Berapakah kos penggunaan API ChatGPT sebulan untuk startup di Malaysia?

Kos bulanan bergantung pada model dan jumlah penggunaan. Untuk projek ringan (100 permintaan/hari dengan GPT-4.1 mini), kos bulanan sekitar USD 1-5 (RM4-22). Untuk aplikasi produksi dengan GPT-4.1 (1,000 permintaan/hari), jangkakan USD 50-200/bulan (RM223-890). Untuk penggunaan intensif dengan model premium, kos boleh melebihi USD 1,000/bulan (RM4,450). Kalkulator kami membantu menganggarkan kos tepat berdasarkan parameter penggunaan anda.

Model AI manakah yang paling murah untuk kegunaan API pada 2026?

Pada Mac 2026, pilihan API paling murah mengikut penyedia ialah: Amazon Nova Micro (USD 0.035/0.14 per 1J token), GPT-5 Nano (USD 0.05/0.40), Gemini 2.0 Flash-Lite (USD 0.075/0.30), Mistral Small (USD 0.10/0.30), GPT-4.1 Nano (USD 0.10/0.40), Llama 4 Scout melalui Groq (USD 0.11/0.34), dan DeepSeek V3.2 (USD 0.28/0.42). Untuk bajet pertengahan, pilihan kuat termasuk Gemini 2.5 Flash (USD 0.30/2.50), GPT-4.1 Mini (USD 0.40/1.60), dan Claude Haiku 4.5 (USD 1/5). Pilihan terbaik bergantung pada keperluan kualiti anda.

Apa itu tetingkap konteks (context window) pada model AI?

Tetingkap konteks ialah bilangan maksimum token yang boleh diproses oleh model dalam satu permintaan, termasuk input dan output. GPT-4.1 menyokong sehingga 1 juta token, Claude Opus 4.6 dan Sonnet 4.6 sehingga 1 juta token, Gemini 2.5 Pro sehingga 1 juta token, Grok 4.1 Fast sehingga 2 juta token, dan DeepSeek V3.2 sehingga 128,000 token. Apabila perbualan melebihi tetingkap konteks, model kehilangan akses kepada mesej-mesej awal.

Bagaimana prompt caching mengurangkan kos AI?

Prompt caching menyimpan vektor key-value bagi awalan prompt yang berulang (seperti prompt sistem) supaya ia tidak perlu dikira semula pada setiap permintaan. Token yang dicache dicaj pada kadar 10-50% daripada harga token input biasa. Untuk aplikasi yang menghantar prompt sistem yang sama dengan setiap permintaan -- chatbot, pembantu pengekodan, pemproses dokumen -- prompt caching boleh mengurangkan jumlah kos input sehingga 90%. OpenAI menggunakan prompt caching secara automatik, manakala Anthropic dan Google memerlukan konfigurasi yang jelas.

Adakah harga API AI sama di Malaysia dengan negara lain?

Ya, harga API daripada OpenAI, Anthropic, Google, dan xAI ditetapkan dalam dolar AS (USD) dan dikenakan secara seragam di seluruh dunia. Tiada perbezaan harga serantau untuk API. Walau bagaimanapun, apabila menukar kepada Ringgit Malaysia, kadar pertukaran USD/MYR mempengaruhi kos efektif. Pada Mac 2026, USD 1 bersamaan lebih kurang RM4.45. Pembangun Malaysia perlu mengambil kira turun naik kadar pertukaran semasa merancang bajet jangka panjang.

Apakah perbezaan antara token dan perkataan?

Perkataan ialah unit bahasa yang dipisahkan oleh ruang. Token ialah unit yang ditentukan oleh tokenizer model -- ia boleh berupa perkataan penuh, sebahagian perkataan, aksara tunggal, atau tanda baca. Perkataan biasa seperti 'the' atau 'is' biasanya satu token. Perkataan yang lebih panjang atau kurang biasa dipecah kepada beberapa token: 'unbelievable' mungkin menjadi 'un', 'believ', 'able' (3 token). Nombor, kod, dan teks bukan Inggeris biasanya memerlukan lebih banyak token per perkataan. Inilah sebab harga berasaskan token tidak berkadar langsung dengan bilangan perkataan.


Istilah Penting

Token

Unit terkecil teks yang diproses oleh model bahasa besar. Boleh berupa perkataan, sebahagian perkataan, aksara, atau tanda baca. Kebanyakan perkataan Inggeris ialah 1-2 token, manakala perkataan Melayu biasanya 1.5-2 token.

Tokenizer

Algoritma yang menukar teks mentah kepada token. Model berlainan menggunakan tokenizer berbeza (contohnya tiktoken untuk OpenAI, SentencePiece untuk Google), bermakna teks yang sama boleh mempunyai bilangan token berlainan antara penyedia.

LLM (Model Bahasa Besar)

Model kecerdasan buatan yang dilatih dengan set data teks dalam jumlah besar untuk memahami dan menjana bahasa semula jadi. Contoh: GPT-5.4 (OpenAI), Claude Opus/Sonnet 4.6 (Anthropic), Gemini 2.5 Pro (Google), Grok 4 (xAI), DeepSeek V3.2, dan Llama 4 (Meta).

Tetingkap Konteks (Context Window)

Bilangan maksimum token yang boleh diproses oleh model dalam satu permintaan, termasuk input dan output. Saiz tetingkap konteks berbeza mengikut model -- GPT-4.1 menyokong 1 juta, Grok 4.1 Fast menyokong 2 juta token.

Prompt Caching

Ciri pengoptimuman kos yang menyimpan dan menggunakan semula pasangan key-value yang dikira daripada awalan prompt berulang, mengurangkan kedua-dua kependaman dan kos token sehingga 90% untuk bahagian yang dicache.

Token Input dan Output

Token input ialah token dalam prompt yang dihantar kepada model. Token output ialah token yang dijana oleh model dalam responsnya. Token output berkos 3-5x lebih mahal kerana pengiraan berurutan yang diperlukan untuk menjana setiap satu.

Kos Per Juta Token

Unit harga standard untuk API LLM. Penyedia menyebut harga sebagai dolar per 1 juta token (ditulis sebagai USD/1J token), secara berasingan untuk input dan output.