トークン計算機
AI言語モデルの利用コストを計算。テキストからトークン数を推定し、GPT-4、Claude、Geminiなどのモデル間の料金を比較できます。
AIトークンとは?LLMの料金を決める基本単位
LLM APIのトークン数と料金の計算方法
LLM API料金の計算式
- = 1リクエストあたりのAPI利用料金(ドル)
- = 入力トークン数(プロンプト + システム指示 + コンテキスト)
- = 出力トークン数(モデルが生成するレスポンス)
- = 入力の100万トークンあたりの単価(ドル)
- = 出力の100万トークンあたりの単価(ドル)
トークン料金の計算例
チャットボットの月額コストを見積もる
Claude Sonnetで長文を要約するコスト
Gemini Flash vs GPT-4o miniのコスパ比較
LLM APIコストを削減する実践的なヒント
- プロンプトは可能な限り簡潔にする。不要なシステム指示や冗長なコンテキストを削るだけで、入力トークン数を20〜40%削減できることがあります。
- タスクの難易度に応じてモデルを使い分ける。低コスト帯ではGPT-4.1 mini、Gemini 2.5 Flash-Lite、Claude Haiku、DeepSeek V3.2、Grok 4.1 Fast、Amazon Nova Micro、Mistral Smallが優秀です。高度な推論が必要な場合はGPT-5.4、GPT-4.1、Claude Sonnet/Opus、Gemini 2.5 Pro、Grok 4、Mistral Largeなどのプレミアムモデルを選びましょう。コストを最小限に抑えたい場合はLlama 4、Mistral Small、DeepSeek V3.2などのオープンソースモデルをGroqなどの推論プロバイダー経由で利用すると$0.11〜$0.50/100万トークンで運用可能です。
- 日本語のプロンプトを部分的に英語に置き換えることを検討する。システム指示や出力フォーマットの指定を英語で記述するだけでトークン数を30〜50%節約できる場合があります。ユーザー向けの回答は日本語のまま生成できます。
- キャッシュを活用する。同じ入力に対する応答をキャッシュすれば、繰り返しリクエストのAPI呼び出し自体を省略できます。OpenAIのPrompt Cachingやセマンティックキャッシュの導入を検討しましょう。
- バッチ処理を活用する。OpenAI Batch APIを使えば、リアルタイム性が不要な処理を50%割引で実行できます。夜間のデータ処理や定期レポート生成に最適です。
- 出力トークン数を制限する。max_tokensパラメータを適切に設定し、必要以上に長い出力を防ぎましょう。出力トークンは入力より2〜5倍高いため、ここの最適化が最もコスト効果が高いです。
- RAG(検索拡張生成)で渡すコンテキストを精選する。関連性の低い文書まで含めると入力トークンが膨らみます。リランキングやチャンク分割の精度を上げて、本当に必要な情報だけをモデルに渡しましょう。
LLMトークンと料金に関するよくある質問
日本語は英語よりトークン数が多くなるのはなぜですか?
主要なLLMが使うBPE(Byte Pair Encoding)トークナイザーは、英語テキストを中心に学習されているため、英語の単語は効率的に1〜2トークンに圧縮されます。一方、日本語のひらがな・カタカナ・漢字はUTF-8で3〜4バイトを占め、トークナイザーの語彙に個別登録されていない文字はバイト単位に分解されるため、1文字あたり1〜3トークンを消費します。結果として、同じ意味の文章で日本語は英語の約1.5〜2倍のトークン数になり、API料金もその分高くなります。
1,000トークンは日本語で何文字くらいですか?
日本語の場合、約500〜700文字が1,000トークンに相当します。テキストの内容によって変動し、ひらがな中心の文章であれば700文字程度、漢字や専門用語が多い文章では500文字程度です。英語では1,000トークンが約750単語に相当するため、同じ情報量でも日本語のほうがトークンコストが高くなります。
主要AIプロバイダーの中で最も安いモデルはどれですか?
2026年3月時点で、各プロバイダーの最安モデルを比較すると以下の通りです。バジェット帯:GPT-4.1 mini(入力0.40ドル、出力1.60ドル/100万トークン)、Gemini 2.5 Flash-Lite(入力0.075ドル、出力0.30ドル)、Claude Haiku(入力0.80ドル、出力4ドル)、DeepSeek V3.2(入力0.27ドル、出力1.10ドル)、Grok 4.1 Fast(入力0.20ドル、出力0.80ドル)、Mistral Small(入力0.10ドル、出力0.30ドル)。ミドル帯:GPT-5 Mini(入力0.25ドル、出力2.00ドル)、GPT-5.2(入力0.875ドル、出力7.00ドル)。プレミアム帯:GPT-5(入力1.25ドル、出力10ドル)、GPT-5.1(入力1.25ドル、出力10ドル)、GPT-5.3(入力1.75ドル、出力14ドル)、GPT-4.1(入力2ドル、出力8ドル)、GPT-5.4(入力2.50ドル、出力15ドル)、Claude Sonnet 4(入力3ドル、出力15ドル)、Claude Opus 4.6(入力15ドル、出力75ドル)、Gemini 2.5 Pro(入力1.25ドル、出力10ドル)、Grok 4(入力3ドル、出力15ドル)、Mistral Large(入力2ドル、出力6ドル)。オープンソース系ではLlama 4、DeepSeek V3.2、Mistral SmallをGroq経由で利用すると$0.11〜$0.50/100万トークンで最もコスパが高くなります。単価だけでなく、コーディング精度ではClaude、マルチモーダルではGPT-4.1、長文コンテキストではGeminiやGrokといったタスクとの適合性も考慮すべきです。
トークン数を正確に計測する方法はありますか?
OpenAIモデルの場合、Pythonライブラリ「tiktoken」を使えば正確なトークン数を計測できます。GPT-4o系は「o200k_base」エンコーディングを使用します。Anthropicの場合はAPIレスポンスのusageフィールドでトークン数が返されます。GoogleのモデルではcountTokens APIが利用可能です。事前見積もりには上の計算ツールを使い、運用時はAPIレスポンスのusageデータを監視するのが最も正確です。
入力トークンと出力トークンで料金が違うのはなぜですか?
入力トークンの処理は複数トークンを並列で一括処理できるため計算効率が高い一方、出力トークンは1トークンずつ順番に生成する必要があり、GPU計算資源をより多く消費します。そのため、出力の単価は入力の2〜5倍に設定されています。コスト最適化では、出力のmax_tokensを必要最小限に抑えることが最も効果的です。
月額10,000円の予算でLLM APIをどのくらい使えますか?
モデルによって大きく異なります。GPT-4.1 miniを使う場合、入力0.40ドル・出力1.60ドル/100万トークンなので、10,000円(約67ドル)で入力1億6,000万トークン以上を処理できます。これは日本語テキスト約8,000万文字に相当し、ほとんどのプロジェクトでは十分です。一方、GPT-4.1では同じ予算で約3,300万トークン(日本語約1,600万文字)の入力処理にとどまります。Groq経由でLlama 4やDeepSeek V3.2を使えば$0.11〜$0.50/100万トークンでさらに大量処理が可能です。用途に応じてプレミアムモデルと軽量・オープンソースモデルを使い分けるのが賢い運用法です。
画像やファイルを入力した場合のトークン数はどう計算されますか?
画像入力の場合、解像度によってトークン数が変わります。GPT-4oでは低解像度(512×512以下)で85トークン、高解像度では512×512ピクセルのタイルごとに170トークンが加算されます。たとえば1024×1024の画像は約765トークンです。PDFやファイルは、テキストとして抽出された内容がトークンとしてカウントされます。マルチモーダル入力のコストは見落としやすいため、画像を多用するアプリケーションでは事前見積もりが特に重要です。
プロンプトキャッシュとは何ですか?コスト削減にどう役立ちますか?
プロンプトキャッシュは、同一のプレフィックス(システムプロンプトや共通のコンテキスト)を含むリクエストで、キャッシュ済み部分のトークン課金を50%割引にする機能です。OpenAIのPrompt Cachingでは、1,024トークン以上の共通プレフィックスが自動的にキャッシュされます。Anthropicも同様の機能を提供しています。RAGアプリケーションのように長いシステムプロンプトを毎回送信するケースでは、入力コストを最大50%削減できます。
AIプロバイダーごとの料金体系はどう違いますか?
2026年3月時点で、主要プロバイダーの料金体系は3つの層に分かれます。バジェット帯(入力$0.07〜$0.80/100万トークン)にはGemini 2.5 Flash-Lite、Mistral Small、Grok 4.1 Fast、GPT-4.1 mini、DeepSeek V3.2、Claude Haikuがあり、大量処理や分類タスクに最適です。ミドル帯にはGPT-5 Mini($0.25/$2.00)、GPT-5.2($0.875/$7.00)があります。プレミアム帯(入力$1.25〜$15/100万トークン)にはGPT-5($1.25/$10)、GPT-5.1($1.25/$10)、GPT-5.3($1.75/$14)、Gemini 2.5 Pro、GPT-4.1、GPT-5.4($2.50/$15)、Mistral Large、Claude Sonnet 4、Grok 4、Claude Opus 4.6があり、高精度な推論やコーディングに向いています。オープンソース帯ではLlama 4、DeepSeek V3.2、Mistral SmallをGroq・Together・Fireworksなどの推論プロバイダー経由で$0.11〜$0.50/100万トークンで利用でき、セルフホスティングなら推論コストのみで運用可能です。各プロバイダーは独自の割引制度(バッチAPI、プロンプトキャッシュ、コミット割引)も提供しているため、月間利用量に応じた最適化が重要です。
コーディング・推論・クリエイティブ作業に最適なモデルはそれぞれどれですか?
タスク別の最適モデルは以下の通りです。コーディング:Claude Sonnet 4とClaude Opus 4.6がコード生成・デバッグ・リファクタリングで最高精度を発揮します。GPT-5.4とGPT-4.1もコーディング性能が高く、Gemini 2.5 Proはリポジトリ全体を読み込める100万トークンのコンテキストが強みです。推論・分析:Claude Opus 4.6とGrok 4が複雑な論理的推論に優れ、Gemini 2.5 Proは長文分析で強みがあります。DeepSeek V3.2はオープンソースながら推論ベンチマークで高スコアを記録しています。クリエイティブ・文章作成:Claude Opus 4.6は自然で豊かな日本語生成に優れ、GPT-4.1は多言語での文章品質が安定しています。Mistral Largeはヨーロッパ言語に特に強く、Grok 4はリアルタイム情報を活用した回答が得意です。コスパ重視ならGPT-4.1 miniやDeepSeek V3.2で十分な品質が得られるタスクも多く、まずは軽量モデルで試してから上位モデルへ切り替えるアプローチが推奨されます。
LLMトークン関連の用語集
トークン(Token)
LLMがテキストを処理する際の最小単位。英語では1単語が約1トークン、日本語では1文字が1〜3トークンに分割される。API料金はトークン数に基づいて課金される。
BPE(Byte Pair Encoding)
テキストをサブワード単位に分割するトークン化アルゴリズム。頻出するバイトペアを新しいトークンに置き換える処理を繰り返すことで、効率的な語彙を構築する。GPTシリーズ、Claude、Gemini、Grok、DeepSeek、Mistral、Llamaなど主要なLLMの多くが採用または類似手法を使用している。
コンテキストウィンドウ
モデルが1回のリクエストで処理できるトークン数の上限。入力と出力の合計トークン数がこの上限を超えることはできない。GPT-4.1は100万トークン、Claude Opus/Sonnet 4.6は100万トークン、Grok 4.1 Fastは200万トークン、Gemini 2.5 Proは100万トークンのコンテキストウィンドウを持つ。
入力トークン(Input Tokens)
APIに送信するプロンプト、システム指示、コンテキストなどのテキストに含まれるトークン数。出力トークンより単価が安く設定されている。
出力トークン(Output Tokens)
モデルが生成するレスポンスに含まれるトークン数。逐次生成のためGPU計算資源を多く消費し、入力トークンの2〜5倍の単価が設定されている。
tiktoken
OpenAIが提供するPythonライブラリで、GPTモデルのトークン数を正確にカウントできる。GPT-4.1系は「o200k_base」エンコーディングを使用する。AnthropicはAPIのcountTokensエンドポイント、GoogleはcountTokens API、MistralはMistral Tokenizerをそれぞれ提供している。
RAG(Retrieval-Augmented Generation)
外部データベースから関連情報を検索し、その結果をプロンプトに含めてLLMに回答を生成させる手法。コンテキストに含める文書量が入力トークン数に直結するため、コスト管理が重要になる。
