מחשבון טוקנים
חשב את עלות השימוש במודלי שפה של AI. הערך טוקנים מטקסט והשווה מחירים של GPT-4, Claude, Gemini ומודלים אחרים.
מה זה מחשבון טוקנים לבינה מלאכותית?
איך לחשב עלות טוקנים ב-API של בינה מלאכותית
נוסחת חישוב עלות טוקנים ב-AI
- = העלות הכוללת של קריאת ה-API (בדולרים)
- = מספר טוקני הקלט (הפרומפט, הודעת המערכת והקונטקסט)
- = מספר טוקני הפלט (התשובה שנוצרת על ידי המודל)
- = מחיר למיליון טוקני קלט עבור המודל הנבחר
- = מחיר למיליון טוקני פלט עבור המודל הנבחר
דוגמאות לחישוב עלות טוקנים
צ’אטבוט שירות לקוחות לחנות אונליין ישראלית
אפליקציית סיכום תוכן בעברית באמצעות Gemini
עוזר קוד לצוות פיתוח של 15 מפתחים
טיפים לחיסכון בעלויות טוקנים ב-API של בינה מלאכותית
- בחרו את המודל הנכון לכל משימה. השתמשו במודלים חסכוניים כמו GPT-4.1 mini, Gemini 2.5 Flash-Lite, Claude Haiku, DeepSeek V3.2, Grok 4.1 Fast, Amazon Nova Micro ו-Mistral Small למשימות פשוטות כמו סיווג, חילוץ מידע וסיכום. שמרו מודלים מתקדמים כמו GPT-5.4, Claude Sonnet/Opus, Gemini 2.5 Pro, Grok 4 ו-Mistral Large למשימות שבאמת דורשות חשיבה מורכבת. ניתוב חכם בין מודלים יכול לחסוך 40-60% מהעלויות.
- הפעילו Prompt Caching לקונטקסט חוזר. אם האפליקציה שלכם שולחת את אותן הוראות מערכת או קונטקסט עם כל בקשה, Prompt Caching מפחית עלויות טוקני קלט עד 90%. ב-OpenAI זה אוטומטי; ב-Anthropic נדרש הגדרה מפורשת של cache_control.
- השתמשו ב-Batch API לעיבודים לא דחופים. OpenAI ו-Anthropic מציעות עיבוד אצווה (batch) בהנחה של 50% על מחירי טוקנים. דוחות, ניתוחים ועיבוד נתונים שלא דורשים תשובה מיידית — שלחו אותם באצווה וחסכו חצי מהעלות.
- קצצו את הפרומפטים בלי רחמים. כל טוקן בקלט עולה כסף. הסירו הוראות מיותרות, הודעות מערכת מנופחות וקונטקסט שאינו רלוונטי. פרומפט ממוקד של 500 טוקנים לרוב מביא תוצאות טובות יותר מפרומפט מפוזר של 2,000 טוקנים — וגם חוסך 75%.
- הגבילו את אורך הפלט. הגדירו את הפרמטר max_tokens כדי למנוע מהמודל ליצור תשובות ארוכות שלא לצורך. אם צריך תשובה של משפט אחד, הגבילו ל-100 טוקנים במקום לתת למודל לכתוב פסקאות.
- שימו לב לעלות העודפת של עברית. טקסט עברי צורך 50-100% יותר טוקנים מאנגלית. אם אפשר, כתבו הוראות מערכת ודוגמאות באנגלית, ותרגמו רק את הקלט והפלט הסופיים. כך תחסכו בצריכת טוקנים בלי לפגוע באיכות.
- נטרו את הצריכה והגדירו התראות. השתמשו בלוח הבקרה של הספק או בכלים כמו Helicone לעקוב אחר צריכת טוקנים לפי נקודת קצה, מודל ומשתמש. הגדירו מגבלות הוצאה קשיחות כדי למנוע חריגות מבאגים או תנועה בלתי צפויה.
שאלות נפוצות על טוקנים ותמחור בינה מלאכותית
כמה טוקנים יש ב-1,000 מילים בעברית?
בממוצע, 1,000 מילים בעברית צורכות כ-2,000-2,500 טוקנים במודלים כמו GPT ו-Claude. לשם השוואה, 1,000 מילים באנגלית מתורגמות לכ-1,333 טוקנים. ההפרש נובע מכך שמערכות הטוקנייזר (כמו tiktoken) מותאמות בעיקר לאנגלית ולשפות לטיניות, בעוד שעברית כשפה שמית עם מורפולוגיה עשירה (אותיות ניקוד, מילות יחס מחוברות, שורשים) דורשת פירוק לחתיכות קטנות יותר. המשמעות המעשית: עיבוד טקסט עברי עולה 50-100% יותר מאנגלית.
למה טוקני פלט יקרים יותר מטוקני קלט?
טוקני פלט יקרים פי 3-5 מטוקני קלט בגלל ההבדל בתהליך החישובי. טוקני קלט מעובדים במעבר אחד במקביל דרך המודל. לעומת זאת, טוקני פלט חייבים להיווצר אחד-אחד ברצף — כל טוקן חדש דורש מעבר חישובי נפרד. תהליך סדרתי זה יקר הרבה יותר מבחינת חישוב וזיכרון. לדוגמה, Claude Sonnet 4.6 גובה 3$ למיליון טוקני קלט אבל 15$ למיליון טוקני פלט — יחס של 1:5.
מה המודל הכי זול ל-API של בינה מלאכותית ב-2026?
נכון למרץ 2026, המודלים הזולים ביותר (קלט/פלט למיליון טוקנים): Amazon Nova Micro ($0.035/$0.14), GPT-5 Nano ($0.05/$0.40), Gemini 2.0 Flash-Lite ($0.075/$0.30), Mistral Small ($0.10/$0.30), GPT-4.1 Nano ($0.10/$0.40), Llama 4 Scout דרך Groq ($0.11/$0.34), Grok 4.1 Fast ($0.20/$0.50), ו-DeepSeek V3.2 ($0.28/$0.42). בשקלים, מודל כמו Gemini 2.0 Flash-Lite עולה כ-0.28 ₪ למיליון טוקני קלט — פחות מאגורה למאה קריאות קצרות. לפני שבוחרים מודל זול, חשוב לבדוק את האיכות בעברית — לא כל המודלים הזולים מתמודדים טוב עם עברית.
מה ההבדל בין טוקנים למילים?
מילה היא יחידת שפה שמופרדת ברווחים. טוקן הוא יחידה שמוגדרת על ידי הטוקנייזר של המודל — הוא יכול להיות מילה שלמה, חלק ממילה, תו בודד או סימן פיסוק. מילים נפוצות כמו 'the' או 'is' הן בדרך כלל טוקן אחד. מילים ארוכות או נדירות מפוצלות למספר טוקנים: למשל, 'unbelievable' הופכת ל-'un', 'believ', 'able' (3 טוקנים). בעברית, מילה כמו 'שהשתמשתי' עשויה להתפצל ל-4-5 טוקנים. קוד, מספרים וטקסט שאינו באנגלית בדרך כלל דורשים יותר טוקנים למילה.
איך Prompt Caching מפחית עלויות?
Prompt Caching שומר את וקטורי ה-key-value של פרומפטים חוזרים (כמו הוראות מערכת) כך שאין צורך לחשב אותם מחדש בכל בקשה. טוקנים שמורים מחויבים ב-10-50% מהמחיר הרגיל, תלוי בספק. לאפליקציות ששולחות את אותן הוראות מערכת בכל בקשה — צ’אטבוטים, עוזרי קוד, מעבדי מסמכים — Prompt Caching יכול להפחית עלויות קלט עד 90%. ב-OpenAI זה פועל אוטומטית; ב-Anthropic וב-Google נדרשת הגדרה מפורשת.
כמה עולה לעבד מסמך של 10,000 מילים בעברית?
מסמך של 10,000 מילים בעברית הוא כ-20,000-25,000 טוקני קלט (בהשוואה ל-13,333 טוקנים לאותו אורך באנגלית). עם GPT-4.1 (2.00$ למיליון טוקני קלט), עלות הקלט בלבד היא כ-$0.04-$0.05 (כ-0.15-0.19 ₪). אם המודל מייצר סיכום של 500 מילים (כ-1,200 טוקנים ב-8.00$ למיליון), עלות הפלט היא כ-$0.01 (כ-0.04 ₪). סך הכול לעיבוד מסמך אחד: כ-0.20 ₪. עיבוד 1,000 מסמכים כאלה: כ-200 ₪. עם GPT-4.1 mini, העלות נמוכה פי 5 בערך.
האם כדאי להשתמש ב-API או במנוי ChatGPT Plus?
זה תלוי בסוג השימוש. מנוי ChatGPT Plus עולה 20$ לחודש (כ-75 ₪) ומספק שימוש נדיב אך מוגבל במודלים כמו GPT-4o. API, לעומת זאת, מתומחר לפי צריכה בפועל. אם אתם צורכים פחות מ-7,500 בקשות בחודש (עם ממוצע 500 טוקנים לבקשה), ה-API זול יותר. אבל המנוי עדיף למשתמש בודד שצריך ממשק שיחה. לאפליקציות ומוצרים תוכנתיים, ה-API הוא האפשרות היחידה.
האם תמונות וקבצים צורכים טוקנים במודלים רב-מודליים?
כן. כשמשתמשים במודלים שתומכים בראייה ממוחשבת כמו GPT-4o או Gemini, תמונות מומרות לטוקנים לפי הרזולוציה שלהן. תמונה של 1024×1024 פיקסלים צורכת כ-765 טוקנים ב-GPT-4o, כשהחישוב מתבצע על ידי חלוקת התמונה לאריחים של 512 פיקסלים (170 טוקנים כל אחד) בתוספת עלות בסיס של 85 טוקנים. תמונות ברזולוציה גבוהה יותר צורכות יותר טוקנים. מסמכי PDF וקבצים אחרים בדרך כלל מומרים לטקסט תחילה ואז מטוקנזים כרגיל.
מילון מונחים
טוקן (Token)
היחידה הקטנה ביותר של טקסט שמודל שפה גדול מעבד. טוקן יכול להיות מילה, חלק ממילה, תו או סימן פיסוק. רוב המילים באנגלית הן 1-2 טוקנים; בעברית מילה אחת היא 2-3 טוקנים.
טוקנייזר (Tokenizer)
האלגוריתם שממיר טקסט גולמי לטוקנים. מודלים שונים משתמשים בטוקנייזרים שונים (tiktoken ב-OpenAI, SentencePiece ב-Google), כך שאותו טקסט יכול להפיק ספירות טוקנים שונות בין ספקים.
BPE (Byte Pair Encoding)
אלגוריתם הטוקניזציה הנפוץ ביותר במודלי שפה מודרניים. הוא בונה אוצר מילים על ידי מיזוג חוזר של זוגות התווים או תת-המילים השכיחים ביותר. GPT, Claude ו-Llama כולם משתמשים בגרסאות של BPE.
חלון הקשר (Context Window)
המספר המקסימלי של טוקנים שמודל יכול לעבד בבקשה אחת, כולל קלט ופלט. חלונות הקשר נעים בין 128K ל-2M טוקנים — GPT-4.1 תומך ב-1M, Claude Opus 4.6 ב-1M, Grok 4.1 Fast ב-2M, ו-Gemini 2.5 Pro עד 1M טוקנים.
Prompt Caching (שמירת פרומפטים במטמון)
תכונת אופטימיזציה שמאחסנת ומשתמשת מחדש בחישובי key-value של פרומפטים חוזרים, ומפחיתה עלויות טוקנים עד 90% על החלק השמור. זמינה ב-OpenAI, Anthropic ו-Google.
טוקני קלט מול טוקני פלט
טוקני קלט הם הטוקנים בפרומפט שנשלח למודל. טוקני פלט הם הטוקנים שנוצרים בתשובת המודל. טוקני פלט יקרים פי 3-5 בגלל החישוב הסדרתי הנדרש ליצירת כל טוקן.
עלות למיליון טוקנים (Cost per Million Tokens)
יחידת התמחור הסטנדרטית של ממשקי API למודלי בינה מלאכותית. ספקים מציינים מחירים בדולרים למיליון טוקנים, בנפרד לקלט ולפלט.
