Smart Calculators

Smart

Calculators

トークン計算機

AI言語モデルの利用コストを計算。テキストからトークン数を推定し、GPT-4、Claude、Geminiなどのモデル間の料金を比較できます。

トークン計算機。AIトークン数の推定とLLMモデルのAPIコスト計算。
トークン計算機はテキスト中のトークン数を推定し、GPT・Claude・Gemini・Grok・DeepSeekなどのAIモデルAPIコストを算出します。約4文字あたり1トークンの標準比率でテキスト長をトークンに変換し、各モデルの100万トークン当たりの料金を適用して入力コストと出力コストを即座に表示します。

AIトークンとは?LLMの料金を決める基本単位

トークンとは、GPT・Claude・Gemini・Grok・DeepSeek・Mistral・LlamaなどのAI言語モデル(LLM)がテキストを処理する際の最小単位です。API利用料金はこのトークン数に基づいて課金されるため、トークンの仕組みを理解することがコスト管理の第一歩になります。
英語では1単語がおおむね1トークンに対応しますが、日本語では1文字あたり1〜3トークンを消費します。たとえば「apple」は1トークンですが、「りんご」は約3トークンです。これはBPE(Byte Pair Encoding)というトークン化アルゴリズムが英語データを中心に最適化されているためです。
つまり、同じ意味の文章でも日本語は英語の1.5〜2倍のトークンを消費し、その分API料金も高くなります。現在はOpenAI(GPT)、Anthropic(Claude)、Google(Gemini)、xAI(Grok)、DeepSeek、Mistral、Meta(Llama)など多数のプロバイダーがAPIを提供しており、価格とモデル性能の選択肢は急速に広がっています。日本語でLLMを活用する開発者やビジネスユーザーにとって、事前にトークン数とコストを見積もることは予算超過を防ぐために不可欠です。

LLM APIのトークン数と料金の計算方法

LLM APIの利用料金は「入力トークン数 × 入力単価 + 出力トークン数 × 出力単価」で計算されます。入力と出力で単価が異なり、一般的に出力のほうが2〜5倍高く設定されています。
トークン数を見積もる手順は以下の通りです。
1. 入力テキスト(プロンプト + システム指示 + コンテキスト)の文字数を確認します。
2. 日本語の場合、おおよそ「文字数 × 1.5」でトークン数を概算できます。ひらがな主体なら係数1.2、漢字が多ければ2.0に近づきます。
3. 期待する出力の長さも同様にトークン数へ変換します。
4. 各モデルの100万トークンあたりの単価を適用します。
5. 1日あたりのリクエスト回数を掛けて、日次・月次のコストを算出します。
たとえば、GPT-4oで日本語500文字(約750トークン)を入力し、1,000トークンの出力を得る場合、1リクエストあたり約0.019ドル(約2.8円)です。これを1日100回繰り返すと月額約8,550円になります。上の計算ツールを使えば、こうした見積もりを複数モデルで瞬時に比較できます。

LLM API料金の計算式

C=Tin×Pin+Tout×Pout1,000,000C = \frac{T_{in} \times P_{in} + T_{out} \times P_{out}}{1{,}000{,}000}
  • CC = 1リクエストあたりのAPI利用料金(ドル)
  • TinT_{in} = 入力トークン数(プロンプト + システム指示 + コンテキスト)
  • ToutT_{out} = 出力トークン数(モデルが生成するレスポンス)
  • PinP_{in} = 入力の100万トークンあたりの単価(ドル)
  • PoutP_{out} = 出力の100万トークンあたりの単価(ドル)
月間の総コストを求める場合は、1リクエストあたりのコストにリクエスト回数を掛けます。
Cmonthly=C×R×DC_{monthly} = C \times R \times D
ここで $R$ は1日あたりのリクエスト数、$D$ は月の稼働日数です。
日本語テキストのトークン数を概算するには、以下の目安が使えます。ひらがな・カタカナは1文字あたり約1〜2トークン、漢字は1文字あたり約2〜3トークン、英数字・記号は英語と同じく1単語1トークン程度です。正確な値はOpenAIのtiktokenライブラリやAnthropicのtokenizer APIで計測できます。

トークン料金の計算例

チャットボットの月額コストを見積もる

社内FAQチャットボットをGPT-4oで構築するケースを考えます。1回の問い合わせで、システムプロンプト(500トークン)+ユーザーの質問(200トークン)+参考文書のコンテキスト(1,500トークン)で合計2,200トークンを入力し、回答として平均800トークンを出力すると仮定します。GPT-4oの単価は入力2.5ドル/100万トークン、出力10ドル/100万トークンなので、1リクエストあたり約0.0136ドル(約2円)です。1日200件の問い合わせが月20営業日で4,000件、月額コストは約54.4ドル(約8,160円)になります。

Claude Sonnetで長文を要約するコスト

Claude Sonnet 4を使って10,000文字の日本語レポートを要約するタスクです。日本語10,000文字は約15,000トークンに相当します。出力の要約は500文字(約750トークン)と仮定します。Claude Sonnetの単価は入力3ドル/100万トークン、出力15ドル/100万トークンなので、1リクエストあたり約0.056ドル(約8.4円)です。毎日5本のレポートを要約すると、月額は約0.056 × 5 × 30 = 8.44ドル(約1,270円)です。同じ処理をGPT-4oで行った場合は約7.25ドル(約1,090円)となり、モデル選択でコストに差が出ることがわかります。

Gemini Flash vs GPT-4o miniのコスパ比較

大量のテキスト分類タスク(1リクエストあたり入力500トークン、出力50トークン)を月10万件処理するケースです。Gemini 2.0 Flashは入力0.10ドル/100万トークン、出力0.40ドル/100万トークンなので、月額は(500 × 0.10 + 50 × 0.40) / 1,000,000 × 100,000 = 7ドル(約1,050円)です。一方、GPT-4o miniは入力0.15ドル/100万トークン、出力0.60ドル/100万トークンで、月額10.5ドル(約1,575円)です。大量処理では単価の僅かな差が積み重なり、年間で約6,300円の差になります。

LLM APIコストを削減する実践的なヒント

  • プロンプトは可能な限り簡潔にする。不要なシステム指示や冗長なコンテキストを削るだけで、入力トークン数を20〜40%削減できることがあります。
  • タスクの難易度に応じてモデルを使い分ける。低コスト帯ではGPT-4.1 mini、Gemini 2.5 Flash-Lite、Claude Haiku、DeepSeek V3.2、Grok 4.1 Fast、Amazon Nova Micro、Mistral Smallが優秀です。高度な推論が必要な場合はGPT-5.4、GPT-4.1、Claude Sonnet/Opus、Gemini 2.5 Pro、Grok 4、Mistral Largeなどのプレミアムモデルを選びましょう。コストを最小限に抑えたい場合はLlama 4、Mistral Small、DeepSeek V3.2などのオープンソースモデルをGroqなどの推論プロバイダー経由で利用すると$0.11〜$0.50/100万トークンで運用可能です。
  • 日本語のプロンプトを部分的に英語に置き換えることを検討する。システム指示や出力フォーマットの指定を英語で記述するだけでトークン数を30〜50%節約できる場合があります。ユーザー向けの回答は日本語のまま生成できます。
  • キャッシュを活用する。同じ入力に対する応答をキャッシュすれば、繰り返しリクエストのAPI呼び出し自体を省略できます。OpenAIのPrompt Cachingやセマンティックキャッシュの導入を検討しましょう。
  • バッチ処理を活用する。OpenAI Batch APIを使えば、リアルタイム性が不要な処理を50%割引で実行できます。夜間のデータ処理や定期レポート生成に最適です。
  • 出力トークン数を制限する。max_tokensパラメータを適切に設定し、必要以上に長い出力を防ぎましょう。出力トークンは入力より2〜5倍高いため、ここの最適化が最もコスト効果が高いです。
  • RAG(検索拡張生成)で渡すコンテキストを精選する。関連性の低い文書まで含めると入力トークンが膨らみます。リランキングやチャンク分割の精度を上げて、本当に必要な情報だけをモデルに渡しましょう。

LLMトークンと料金に関するよくある質問

日本語は英語よりトークン数が多くなるのはなぜですか?

主要なLLMが使うBPE(Byte Pair Encoding)トークナイザーは、英語テキストを中心に学習されているため、英語の単語は効率的に1〜2トークンに圧縮されます。一方、日本語のひらがな・カタカナ・漢字はUTF-8で3〜4バイトを占め、トークナイザーの語彙に個別登録されていない文字はバイト単位に分解されるため、1文字あたり1〜3トークンを消費します。結果として、同じ意味の文章で日本語は英語の約1.5〜2倍のトークン数になり、API料金もその分高くなります。

1,000トークンは日本語で何文字くらいですか?

日本語の場合、約500〜700文字が1,000トークンに相当します。テキストの内容によって変動し、ひらがな中心の文章であれば700文字程度、漢字や専門用語が多い文章では500文字程度です。英語では1,000トークンが約750単語に相当するため、同じ情報量でも日本語のほうがトークンコストが高くなります。

主要AIプロバイダーの中で最も安いモデルはどれですか?

2026年3月時点で、各プロバイダーの最安モデルを比較すると以下の通りです。バジェット帯:GPT-4.1 mini(入力0.40ドル、出力1.60ドル/100万トークン)、Gemini 2.5 Flash-Lite(入力0.075ドル、出力0.30ドル)、Claude Haiku(入力0.80ドル、出力4ドル)、DeepSeek V3.2(入力0.27ドル、出力1.10ドル)、Grok 4.1 Fast(入力0.20ドル、出力0.80ドル)、Mistral Small(入力0.10ドル、出力0.30ドル)。ミドル帯:GPT-5 Mini(入力0.25ドル、出力2.00ドル)、GPT-5.2(入力0.875ドル、出力7.00ドル)。プレミアム帯:GPT-5(入力1.25ドル、出力10ドル)、GPT-5.1(入力1.25ドル、出力10ドル)、GPT-5.3(入力1.75ドル、出力14ドル)、GPT-4.1(入力2ドル、出力8ドル)、GPT-5.4(入力2.50ドル、出力15ドル)、Claude Sonnet 4(入力3ドル、出力15ドル)、Claude Opus 4.6(入力15ドル、出力75ドル)、Gemini 2.5 Pro(入力1.25ドル、出力10ドル)、Grok 4(入力3ドル、出力15ドル)、Mistral Large(入力2ドル、出力6ドル)。オープンソース系ではLlama 4、DeepSeek V3.2、Mistral SmallをGroq経由で利用すると$0.11〜$0.50/100万トークンで最もコスパが高くなります。単価だけでなく、コーディング精度ではClaude、マルチモーダルではGPT-4.1、長文コンテキストではGeminiやGrokといったタスクとの適合性も考慮すべきです。

トークン数を正確に計測する方法はありますか?

OpenAIモデルの場合、Pythonライブラリ「tiktoken」を使えば正確なトークン数を計測できます。GPT-4o系は「o200k_base」エンコーディングを使用します。Anthropicの場合はAPIレスポンスのusageフィールドでトークン数が返されます。GoogleのモデルではcountTokens APIが利用可能です。事前見積もりには上の計算ツールを使い、運用時はAPIレスポンスのusageデータを監視するのが最も正確です。

入力トークンと出力トークンで料金が違うのはなぜですか?

入力トークンの処理は複数トークンを並列で一括処理できるため計算効率が高い一方、出力トークンは1トークンずつ順番に生成する必要があり、GPU計算資源をより多く消費します。そのため、出力の単価は入力の2〜5倍に設定されています。コスト最適化では、出力のmax_tokensを必要最小限に抑えることが最も効果的です。

月額10,000円の予算でLLM APIをどのくらい使えますか?

モデルによって大きく異なります。GPT-4.1 miniを使う場合、入力0.40ドル・出力1.60ドル/100万トークンなので、10,000円(約67ドル)で入力1億6,000万トークン以上を処理できます。これは日本語テキスト約8,000万文字に相当し、ほとんどのプロジェクトでは十分です。一方、GPT-4.1では同じ予算で約3,300万トークン(日本語約1,600万文字)の入力処理にとどまります。Groq経由でLlama 4やDeepSeek V3.2を使えば$0.11〜$0.50/100万トークンでさらに大量処理が可能です。用途に応じてプレミアムモデルと軽量・オープンソースモデルを使い分けるのが賢い運用法です。

画像やファイルを入力した場合のトークン数はどう計算されますか?

画像入力の場合、解像度によってトークン数が変わります。GPT-4oでは低解像度(512×512以下)で85トークン、高解像度では512×512ピクセルのタイルごとに170トークンが加算されます。たとえば1024×1024の画像は約765トークンです。PDFやファイルは、テキストとして抽出された内容がトークンとしてカウントされます。マルチモーダル入力のコストは見落としやすいため、画像を多用するアプリケーションでは事前見積もりが特に重要です。

プロンプトキャッシュとは何ですか?コスト削減にどう役立ちますか?

プロンプトキャッシュは、同一のプレフィックス(システムプロンプトや共通のコンテキスト)を含むリクエストで、キャッシュ済み部分のトークン課金を50%割引にする機能です。OpenAIのPrompt Cachingでは、1,024トークン以上の共通プレフィックスが自動的にキャッシュされます。Anthropicも同様の機能を提供しています。RAGアプリケーションのように長いシステムプロンプトを毎回送信するケースでは、入力コストを最大50%削減できます。

AIプロバイダーごとの料金体系はどう違いますか?

2026年3月時点で、主要プロバイダーの料金体系は3つの層に分かれます。バジェット帯(入力$0.07〜$0.80/100万トークン)にはGemini 2.5 Flash-Lite、Mistral Small、Grok 4.1 Fast、GPT-4.1 mini、DeepSeek V3.2、Claude Haikuがあり、大量処理や分類タスクに最適です。ミドル帯にはGPT-5 Mini($0.25/$2.00)、GPT-5.2($0.875/$7.00)があります。プレミアム帯(入力$1.25〜$15/100万トークン)にはGPT-5($1.25/$10)、GPT-5.1($1.25/$10)、GPT-5.3($1.75/$14)、Gemini 2.5 Pro、GPT-4.1、GPT-5.4($2.50/$15)、Mistral Large、Claude Sonnet 4、Grok 4、Claude Opus 4.6があり、高精度な推論やコーディングに向いています。オープンソース帯ではLlama 4、DeepSeek V3.2、Mistral SmallをGroq・Together・Fireworksなどの推論プロバイダー経由で$0.11〜$0.50/100万トークンで利用でき、セルフホスティングなら推論コストのみで運用可能です。各プロバイダーは独自の割引制度(バッチAPI、プロンプトキャッシュ、コミット割引)も提供しているため、月間利用量に応じた最適化が重要です。

コーディング・推論・クリエイティブ作業に最適なモデルはそれぞれどれですか?

タスク別の最適モデルは以下の通りです。コーディング:Claude Sonnet 4とClaude Opus 4.6がコード生成・デバッグ・リファクタリングで最高精度を発揮します。GPT-5.4とGPT-4.1もコーディング性能が高く、Gemini 2.5 Proはリポジトリ全体を読み込める100万トークンのコンテキストが強みです。推論・分析:Claude Opus 4.6とGrok 4が複雑な論理的推論に優れ、Gemini 2.5 Proは長文分析で強みがあります。DeepSeek V3.2はオープンソースながら推論ベンチマークで高スコアを記録しています。クリエイティブ・文章作成:Claude Opus 4.6は自然で豊かな日本語生成に優れ、GPT-4.1は多言語での文章品質が安定しています。Mistral Largeはヨーロッパ言語に特に強く、Grok 4はリアルタイム情報を活用した回答が得意です。コスパ重視ならGPT-4.1 miniやDeepSeek V3.2で十分な品質が得られるタスクも多く、まずは軽量モデルで試してから上位モデルへ切り替えるアプローチが推奨されます。


LLMトークン関連の用語集

トークン(Token)

LLMがテキストを処理する際の最小単位。英語では1単語が約1トークン、日本語では1文字が1〜3トークンに分割される。API料金はトークン数に基づいて課金される。

BPE(Byte Pair Encoding)

テキストをサブワード単位に分割するトークン化アルゴリズム。頻出するバイトペアを新しいトークンに置き換える処理を繰り返すことで、効率的な語彙を構築する。GPTシリーズ、Claude、Gemini、Grok、DeepSeek、Mistral、Llamaなど主要なLLMの多くが採用または類似手法を使用している。

コンテキストウィンドウ

モデルが1回のリクエストで処理できるトークン数の上限。入力と出力の合計トークン数がこの上限を超えることはできない。GPT-4.1は100万トークン、Claude Opus/Sonnet 4.6は100万トークン、Grok 4.1 Fastは200万トークン、Gemini 2.5 Proは100万トークンのコンテキストウィンドウを持つ。

入力トークン(Input Tokens)

APIに送信するプロンプト、システム指示、コンテキストなどのテキストに含まれるトークン数。出力トークンより単価が安く設定されている。

出力トークン(Output Tokens)

モデルが生成するレスポンスに含まれるトークン数。逐次生成のためGPU計算資源を多く消費し、入力トークンの2〜5倍の単価が設定されている。

tiktoken

OpenAIが提供するPythonライブラリで、GPTモデルのトークン数を正確にカウントできる。GPT-4.1系は「o200k_base」エンコーディングを使用する。AnthropicはAPIのcountTokensエンドポイント、GoogleはcountTokens API、MistralはMistral Tokenizerをそれぞれ提供している。

RAG(Retrieval-Augmented Generation)

外部データベースから関連情報を検索し、その結果をプロンプトに含めてLLMに回答を生成させる手法。コンテキストに含める文書量が入力トークン数に直結するため、コスト管理が重要になる。