Price Per Token（トークン単価）– LLM API価格データ

(pricepertoken.com)

16 ポイント投稿者 GN⁺ 2025-07-26 | 1件のコメント | WhatsAppで共有

さまざまな**LLMプロバイダー（例: OpenAI、Anthropic、Google）**の価格を、**共通の基準（トークン単価）**で明確に比較可能
- プロバイダー、モデル、Input ($/M)、Output ($/M) 形式のテーブルとグラフをサポート
最終データ更新日時: 2025年7月26日
特定のモデルを選ぶ前に、コストパフォーマンス分析の参考にできる基礎データを提供
ニュースレター登録により、定期的に最新情報を受け取ることが可能

1件のコメント

GN⁺ 2025-07-26

Hacker Newsのコメント

（OpenRouter勤務）私たちは、価格やモデル情報をAPIで提供するベンダーと連携してこの問題を解決しました。その結果、マーケットプレイスの情報を常に最新に保てるようになりました。1年前はSlackチャンネルで会話しながら内容を共有していた頃を思い出します。最近はベンダーごとにプロンプト長、キャッシュなどさまざまな要素があり、トークン価格体系が非常に複雑になっています。実際に重要なのはモデル単位ではなく、endpoint単位のトークン単価です。たとえば高速版/低速版、thinking/non-thinking など、同じモデルでも endpoint によって価格が変わることがよくあります。こうした一連の課題を解決するために多くの努力を注ぎ、現在その成果をOpenRouterで公開しています（まだ価格中心で見やすく整理されたフォーマットではない点は認めます）
- さっそく、より簡潔で見やすくなるよう試してみました。ご尽力に本当に感謝します。llm-pricingプロジェクトを共有します
データが間違っているのではないか気になります。Google Gemini 2.5 Flash-Lite の入力トークン単価は $0.10 なのに、ここでは $0.40 と表示されているように見えます。公式価格表を参照してください
- データが間違っているのではなく、私が表の読み方を間違えたようです。（修正: 私の返答自体が間違っていたようです。あの返答の仕方はよくありませんでした）
この情報は素晴らしいですが、実際のUXの観点ではさらに多くの考慮が必要です
- 同じモデルでもベンダーによって価格が異なる
- 各ベンダーが速度、コストなど異なる基準に最適化している
- 同一モデルでも異なる量子化バージョンが存在する
- Grok API のようにバッチ料金プランを提供するところもある
- 「thinking/non-thinking」、マルチモーダル対応の有無など、追加でフィルタリングできる条件も非常に多い
- ベンチマークスコアも変数である
  artificialanalysis.ai のように blended cost（入出力込みの総合料金）を提供するものはある程度参考になりますが、実際には利用目的によって Input/Output の料金モデルも変わり続けます。本当に優れた比較UIを持つサイトが出てくるのを期待しています。誰かがいつかぜひ作ってほしいです
- （OpenRouter勤務）実はウェブサイトではあまり目立ちませんが、とてもシンプルなモデル比較ツールがあります。例: OpenRouterモデル比較ページを参照してください
- 「provider」という列、つまり実際にAPI呼び出しが行われる先を表に追加すれば、この問題を解決できるのではないかと思います
- 公平な比較を作るのは非常に難しそうです。最善策は、各条件のトレードオフを明確に示し、ユーザー自身が判断できるようにすることです。token exchange のように、ユーザーが要件を投稿し、企業がそれに合ったサービスを競争的に提供するプラットフォームという発想も興味深いです。誰でも自分の計算資源を共有するマーケットプレイスも想像できますが、実力を偽ったりデータを漏えいしたりする問題については別途対策が必要です
- どうかこれ以上ベンチマーク順位を重視しないでほしいです。この種の比較への過度な執着を生み出す雰囲気が続いているのは残念です
以前は新しく公開されたモデルの料金を探すために、数えきれないほどの宣伝ページを渡り歩かなければならず、とても不便でした。今ではOpenRouterで一目で確認できるので便利です
核心的な問題は、トークンがベンダー/モデルごとに異なることです。tokenizer モデルの違いを超えて、同じベンダー内でも非常に大きな差があります
- たとえば画像入力では、gpt-4o-mini は gpt-4 と比べて 10倍多くのトークンを消費する
- gemini 2.5 pro の output は通常トークン単位で課金されるが、structured output を使うと1文字ごとに1トークンとして扱われる
- トークン単価の情報は重要ですが、実際に本当に知りたいのは、同じクエリ/応答がモデルごとにいくらかかるのかという点です。すべてのトークンが同じではないからです
- 毎日同じ実験を回して、そのコストを表の列として追加する予定です。たとえば「この記事を200語で要約」というプロンプトをすべてのモデルに同じように入力した結果で測定できます
- gemini 2.5 pro で structured output を使うと文字=トークン方式になるという説明について、もっと詳しく聞きたいです。違いがよく分かりません
今はサイトが落ちていますが、Simon Willison の LLM 価格計算機もおすすめしたいです（llm-prices.com）
ハードウェアに $2500 ほど予算があるなら、どんなモデルをローカルで動かせるのか気になります。もし足りないならどの程度の予算が必要なのか、またローカルで自前運用する方法についてのチュートリアルがあれば知りたいです
- ローカルLLMの活用に興味があるなら ollama.com が出発点です。ノード数はRAM容量（GB）に換算できます。たとえば Deepseek-r1:7b モデルならおよそ7GB必要です。コンテキストウィンドウが大きいほど、より多くのメモリが必要になります。$2500 の予算でAIマシンを組むなら、LPDDR5 のようなユニファイドメモリが多い構成をおすすめします。参考リンク: Framework AIMax300
- 18か月前に $1900 で Mac Mini M2Pro 32GB を買いましたが、量子化された 40B のローカルモデルまで十分うまく動きます。ローカルモデルの性能が足りない場合は、Gemini 2.5 flash/pro と gemini-cli の組み合わせを使うこともあります。商用APIもローカルモデルも、どちらにも良い選択肢が多いので、ひとつ選んで素早く構築に集中するのがいちばんです
- $600 前後で中古の 3090 グラフィックカードを2枚買うのが最良です。今でも 3090 はコストパフォーマンスが非常に高いです
- Kimi と deepseek だけが、主要クラウドプロバイダーと比べても性能差がそれほど大きくない数少ないモデルです
- ollama 系のモデルは、そこそこのCPUさえあれば一部のモデルは無理なく動かせます
ベンダー別の料金情報を知るには各ウェブサイトを回るしかありませんでしたが、OpenRouter は良い代替手段です。オープンモデルまで含めて一覧化されており、実際のモデルの本当の価格/規模、そして現在どれくらい補助されているかまでおおよそ把握できます
- OpenRouter API にはモデルと価格情報を取得できる endpoint があります（OpenRouterモデルAPIドキュメント）。欠点は、1モデルあたり1ベンダー分の情報しか提供されないことです。商用モデルでは問題ありませんが、オープンソースモデルはベンダーごとの価格差が5〜10倍に達することもあるため、参考程度に使うべきです
価格データと一般的なベンチマーク情報を組み合わせて、「コストパフォーマンス（ベンチマークスコア/トークンコスト）」が最も良いモデルが何かを示す資料があればと思います
各ベンダーの料金体系は、単純な input/output 課金ではなく、はるかに複雑です
- DeepSeek のオフピーク時間料金
- OpenAI/Anthropic の batch 料金
- Google/Grok のコンテキストウィンドウ別料金
- Qwen の thinking/non-thinking トークン分離課金
- Qwen coder の入力トークン tier 価格
  参考までに関連投稿: X.com paradite_

Price Per Token（トークン単価）– LLM API価格データ

関連記事

1件のコメント

Hacker Newsのコメント