OpenRouterのAI現況レポート：100兆トークンの実証研究

(openrouter.ai)

7 ポイント投稿者 GN⁺ 2025-12-29 | まだコメントはありません。 | WhatsAppで共有

100兆トークン以上の実際のLLM利用データを分析した大規模研究であり、2024年12月のo1推論モデル公開以降、AIの推論方式における根本的な転換を追跡
オープンソースモデルが全体利用量の約30%まで成長し、DeepSeek V3、Kimi K2など中国のオープンソースモデルが急速にシェアを拡大
ロールプレイとプログラミングがLLM利用の二大軸であり、オープンソースモデル利用量の半分以上がロールプレイに集中していて、生産性中心という想定と相反する結果を導出
推論モデルが全トークンの50%以上を処理し、エージェント的推論が新たな基本パターンとして浮上、ツール呼び出しと多段階タスクが増加
初期ユーザーが長期的に高い維持率を示す**「ガラスの靴」効果**が見つかり、モデルとワークロードの適合性が中核的な競争力であることを示唆

研究概要と方法論

OpenRouterは300以上のモデルと60以上のプロバイダーを支援するマルチモデルAI推論プラットフォームで、世界中の数百万人の開発者とエンドユーザーにサービスを提供
分析データセットは約2年間の匿名化されたリクエストレベルのメタデータで構成され、プロンプトや生成テキストそのものにはアクセスしない
すべての分析はHex分析プラットフォームを通じて、再現可能なSQLクエリ、変換、可視化パイプラインで実施
コンテンツ分類は全プロンプトの約**0.25%**を無作為抽出し、GoogleTagClassifierを通じて実施、プログラミング・ロールプレイ・翻訳・一般Q&A・生産性/ライティング・教育・文学/創作・成人などのカテゴリに分類
地域分析は**請求所在地(billing location)**に基づいてユーザー地域を決定し、IPベースより安定したプロキシとして活用
分析期間は主に2024年11月～2025年11月の13か月で、カテゴリ分類分析は2025年5月以降のデータに基づく

オープンソース vs クローズドモデル

オープンソース(OSS)モデルは重みが公開されたモデル、クローズドモデルは制限されたAPI経由でのみアクセス可能なモデル（例: Anthropic Claude）と定義
オープンソースモデルのシェアは着実に増加し、2025年末時点で約**30%**に到達、これはDeepSeek V3、Kimi K2など主要オープンソースモデルの公開と連動
中国開発モデルは2024年末の週次シェア1.2%から、一部の週では約30%まで急成長し、年間平均で約13.0%を記録
- Qwen、DeepSeekなどが高速な反復リリースと高密度な公開サイクルで成長を主導
クローズドモデルは依然として信頼性と性能上限を規定し、規制対応または企業ワークロードで優位
OSSモデルはコスト効率、透明性、カスタマイズ性の面で魅力的であり、現在は約30%で均衡点を形成
両モデルタイプは相互排他的ではなく、マルチモデルスタックの中で相互補完的に活用
主要なオープンソースプレイヤー
- DeepSeekが総計14.37兆トークンでOSSの中で最大の貢献者だが、新規参入者も急速にシェアを確保
- Qwen(5.59兆)、Meta LLaMA(3.96兆)、Mistral AI(2.92兆)の順で上位にランクイン
- 2025年半ばのSummer Inflection以降、市場構造はほぼ独占状態から多元化へ転換
  - MoonshotAIのKimi K2、OpenAIのGPT-OSSシリーズ、MiniMax M2などが数週間内に本番レベルの採用を達成
- 2025年末時点で単一モデルがOSSトークンの25%を超えず、5～7モデルにシェアが分散
- OSSエコシステムはイノベーションサイクルが速く、リーダーシップが保証されない極めて動的な競争環境
モデルサイズ vs 市場適合性: 中型が新たな小型
- モデルサイズ分類: 小型(15B未満)、中型(15B～70B)、大型(70B以上)
- 小型モデルは全体的にシェア低下傾向で、新モデル供給にもかかわらず利用量が減少
- 中型モデルは2024年11月のQwen2.5 Coder 32B公開により本格的にカテゴリを形成
  - Mistral Small 3(2025年1月)、GPT-OSS 20B(2025年8月)などが強力な競合として浮上
  - ユーザーが能力と効率性のバランスを求めていることを示唆
- 大型モデルセグメントはQwen3 235B A22B Instruct、Z.AI GLM 4.5 Air、OpenAI GPT-OSS-120Bなど多様な高性能競合へと多元化
- 小型モデル支配の時代は終わり、市場は中型モデルと大型モデルに二極化する傾向
オープンソースモデルの用途
- OSSモデルの最大用途はロールプレイ(約52%)とプログラミングで、この2カテゴリがOSSトークン利用量の大半を占める
- ロールプレイが50%以上を占めるのは、オープンモデルのコンテンツフィルタの制約が比較的弱く、ファンタジーやエンターテインメント用途に魅力的であることを反映
- 中国OSSモデルではロールプレイが約33%で最大だが、プログラミングと技術を合わせると39%となり、より大きな比重を占める
  - Qwen、DeepSeekなどがコード生成やインフラ関連ワークロードでますます多く利用
- プログラミングカテゴリでは、OSS内シェアが中国OSSと西側OSSの間で動的に変化
  - 2025年半ばには中国OSSが主導したが、Q4にはMeta LLaMA-2 Code、OpenAI GPT-OSSシリーズなど西側OSSが急増
- ロールプレイトラフィックは2025年末時点で**RoW OSS(43%)とクローズド(42%)**がほぼ均等に分担し、初期の70%クローズド支配から大きく変化

エージェント的推論の台頭

推論モデルが全体利用量の半分以上を占有
- 推論最適化モデルによるトークンシェアは2025年初頭のごく小さい水準から50%超へ急増
- GPT-5、Claude 4.5、Gemini 3など高性能システムの公開と、多段階ロジックやエージェント型ワークフローに対するユーザー選好がこの変化を牽引
- 直近データではxAI Grok Code Fast 1が推論トラフィック最大シェアを占め、Google Gemini 2.5 Pro/Flashが続く
- オープンモデルであるOpenAI gpt-oss-120bも相当なシェアを維持し、開発者は可能な場合OSSを選好
ツール呼び出し採用の増加
- Tool Call終了理由に分類されたリクエストのトークンシェアが継続的に上昇傾向
- ツール呼び出しは当初OpenAI gpt-4o-mini、Anthropic Claude 3.5/3.7シリーズに集中していたが、2025年半ば以降はより多くのモデルがツール提供をサポート
- 2025年9月末以降、Claude 4.5 Sonnetが急速にシェアを拡大し、Grok Code Fast、GLM 4.5も参入
プロンプト-生成の形態変化
- 平均プロンプトトークンは約1.5Kから6K超へと約4倍に増加
- 平均生成トークンも約150から400へとほぼ3倍に増加し、主に推論トークンの増加に起因
- プログラミング関連タスクがプロンプトトークン増加の主な原動力で、20K超の入力トークンを頻繁に使用
- 他のカテゴリは比較的フラットで低いボリュームを維持
より長いシーケンス、より複雑な相互作用
- 平均シーケンス長は過去20か月で2,000トークン未満から5,400トークン超へと3倍以上増加
- プログラミング関連プロンプトは一般目的プロンプトより平均3～4倍長いトークン長を記録
- 長いシーケンスはユーザーの冗長さではなく、組み込みの高度なエージェント的ワークフローの特徴
含意: エージェント的推論が新たなデフォルト
- 推論シェアの増加、ツール利用の拡大、シーケンスの長文化、プログラミングの複雑性増大などが、LLM利用の中心軸の移動を示唆
- 中間的なLLMリクエストは、もはや単純な質問や孤立した指示ではなく、構造化されたエージェント類似ループの一部
- モデルプロバイダーにとっては、レイテンシ、ツール処理、コンテキスト支援、悪意あるツールチェーンに対する堅牢性がますます重要
- まもなく、まだそうでないとしても、エージェント的推論が推論の大半を占める見通し

カテゴリ: 人々はLLMをどのように使っているのか？

支配的なカテゴリ
- プログラミングが最も一貫して拡大しているカテゴリで、2025年初頭の約11%から直近では50%超
- Anthropic Claudeシリーズがプログラミング関連支出の60%以上を継続的に掌握
  - 11月17日の週に初めて60%を下回った
- OpenAIは7月以降、約2%から8%へとシェアを拡大し、Googleは約15%で安定維持
- MiniMaxが急速に台頭する新規参入者として注目
カテゴリ内のタグ構成
- ロールプレイ: 約60%が Games/Roleplaying Games で、カジュアルなチャットボットよりも構造化されたロールプレイまたはキャラクターエンジンとして活用
  - Writers Resources(15.6%)、Adult コンテンツ(15.4%)も含む
- プログラミング: 3分の2以上が Programming/Other とラベル付けされており、幅広い汎用コード関連プロンプトの特性を示す
  - Development Tools(26.4%)とスクリプト言語の小さなシェアにより、新たな専門化の兆候も見られる
- 翻訳、科学、健康などは比較的フラットな内部構造
  - 翻訳: Foreign Language Resources(51.1%)と Other にほぼ均等に分割
  - 科学: Machine Learning & AI(80.4%)が支配的で、大半はメタAIに関する質問
  - 健康: 最も細分化されたカテゴリで、単一の下位タグが25%を超えない
- 金融、学術、法律ははるかに分散しており、単一タグはいずれも20%未満
プロバイダー別インサイト
- Anthropic Claude: プログラミング＋技術用途が80%超で、ロールプレイと一般Q&Aは少量
- Google: 翻訳、科学、技術、一般知識など多様な構成で、コーディング比率は2025年末に約18%まで低下
- xAI: 期間の大半でプログラミングが80%超を占め、11月末にのみ技術、ロールプレイ、学術などへ拡大
  - 無料提供による非開発者トラフィックの流入と関連
- OpenAI: 2025年初頭には科学系タスクが半分以上を占めていたが、年末には15%未満に減少
  - プログラミングと技術関連の利用がそれぞれ29%を占め、合わせて過半数を構成
- DeepSeek: ロールプレイ、カジュアルチャット、エンターテインメント志向のやり取りが3分の2以上を占める
- Qwen: プログラミングが全期間を通じて40〜60%で一貫して維持される一方、科学、技術、ロールプレイなどでは週次変動が大きい

地域: LLMの利用は地域ごとにどう異なるか

地域別の利用分布
- 北米が単独で最大の地域だが、観測期間の大半では総支出の半分未満
- 欧州は週次支出シェアが10〜20%台で安定して推移
- アジアはフロンティアモデルの生産者であるだけでなく、急速に拡大する消費地域としても浮上
  - データセット初期の約13%から直近の約**31%**へと、シェアが2倍以上に増加
- 大陸別分布: 北米 47.22%、アジア 28.61%、欧州 21.32%、オセアニア 1.18%、南米 1.21%、アフリカ 0.46%
- 上位10か国: 米国(47.17%)、シンガポール(9.21%)、ドイツ(7.51%)、中国(6.01%)、韓国(2.88%)、オランダ(2.65%)、英国(2.52%)、カナダ(1.90%)、日本(1.77%)、インド(1.62%)
言語分布
- 英語が82.87%で支配的
- 中国語簡体字(4.95%)、ロシア語(2.47%)、スペイン語(1.43%)、タイ語(1.03%)、その他(7.25%)

LLMユーザー維持率分析

シンデレラの「ガラスの靴」現象
- ほとんどのリテンションチャートは高い離脱率と急速なコホート減少に支配されるが、初期ユーザーコホートは時間が経っても耐久性のある維持率を示す
- こうした基礎コホート(foundational cohorts) は、ワークロードが深く継続的なワークロード-モデル適合を達成したユーザーを表す
- ガラスの靴効果: 急変するAIエコシステムにおいて、各新たなフロンティアモデルが、従来満たされていなかった高価値ワークロードに対して「試され」、技術的・経済的制約に正確に合致したとき、強力なロックイン効果が発生する
- Gemini 2.5 Proの2025年6月コホートとClaude 4 Sonnetの5月コホートは、5か月目に約**40%**の維持率を示し、後続コホートより著しく高い
- GPT-4o Mini: 単一の基礎コホート(2024年7月)がリリース時に支配的で粘着性の高いワークロード-モデル適合を確立し、その後の全コホートは同様に離脱
- Gemini 2.0 Flash、Llama 4 Maverick: 高パフォーマンスの基礎コホートが形成されず、すべてのコホートが同様に低調で、「フロンティア」とは認識されなかった
- DeepSeekモデル群のブーメラン効果: 一般的な単調減少ではなく、復活ジャンプ 現象が観測された
  - DeepSeek R1の2025年4月コホートは3か月目に、DeepSeek Chat V3-0324の7月コホートは2か月目に維持率が上昇
  - 代替案を試した後に戻ってくるユーザーを示している
含意
- 最初に問題を解決することが持続的優位として作用する
- コホートレベルの維持率パターンはモデル差別化の実証的シグナル
- フロンティアウィンドウの時間的制約: モデルが基礎ユーザーを獲得できる窓は狭く一時的だが、長期的な採用ダイナミクスに決定的
- 基礎コホートは実質的な技術進歩の指紋であり、AIモデルが目新しさから必需品へと転換した地点を示す

コスト vs 利用ダイナミクス

カテゴリ別AIワークロード細分化分析
- 中央コスト $0.73/1Mトークン を基準に4象限フレームワークを構成
- プレミアムワークロード(右上): 高コスト・高利用のアプリケーションで、technologyとscienceを含む
  - technologyが最も高価でありながら高い利用量を維持しており、複雑なシステム設計やアーキテクチャでは強力なモデルが必要であることを示唆
- マスマーケットのボリュームドライバー(左上): 高利用・低コストで、roleplay、programming、scienceが支配
  - programmingは「キラープロフェッショナル」カテゴリとして、最高水準の利用量と高度に最適化された中程度のコストを両立
  - roleplayの利用量はprogrammingに匹敵する水準で、消費者向けロールプレイが最上位のプロ向け用途と同等のエンゲージメントを生み出している
- 専門エキスパート(右下): 低ボリューム・高コストで、finance、academia、health、marketingを含む
  - 高リスクなニッチ専門領域であり、正確性、信頼性、ドメイン特化知識への需要が高い
- ニッチユーティリティ(左下): 低コスト・低ボリュームで、translation、legal、triviaを含む
  - 機能的でコスト最適化されたユーティリティで、コモディティ化されており安価な代替手段が利用可能
AIモデルの実効コスト vs 利用
- 対数-対数スケールでは価格と利用量の相関は弱く、トレンドラインはほぼフラット
- 需要は比較的価格非弾力的: 価格が10%下がっても利用量は約0.5〜0.7%しか増えない
- 明確に異なる2つの体制: クローズドモデル(OpenAI、Anthropic)は高コスト・高利用の領域に、オープンモデル(DeepSeek、Mistral、Qwen)は低コスト・高ボリュームの領域に位置
- 4つの利用-コストアーキタイプ:
  - プレミアムリーダー: Claude 3.7 Sonnet、Claude Sonnet 4など、約$2/1Mトークンで高い利用量を達成
  - 効率的な巨人: Gemini 2.0 Flash、DeepSeek V3 0324など、$0.40/1Mトークン未満で同様の利用量を実現
  - ロングテール: Qwen 2 7B Instruct、IBM Granite 4.0 Microなど、1Mトークンあたり数セントだが、性能の弱さや可視性の制約により利用量は低い
  - プレミアム専門家: GPT-4、GPT-5 Proなど、約$35/1Mトークンで利用量は低く、高リスクなワークロードに限定して使われる
- Jevonsのパラドックスの証拠: 非常に安価で高速なモデルがより多くのタスクに使われ、総トークン消費が増加
- 品質と能力はしばしばコストを上回る: 高価なモデル(Claude、GPT-4)の高利用量は、モデルが明らかに優れているか、信頼面で優位にある場合、ユーザーが高コストを受け入れることを示す

議論

マルチモデル生態系: 単一モデルがすべての用途を支配しているわけではなく、クローズドモデルとオープンモデルの双方が相当なシェアを確保
生産性を超える利用の多様性: オープンソースモデルの利用量の半分以上がロールプレイとストーリーテリング
- コンシューマー向けアプリケーション、パーソナライズ、AIとエンターテインメントIPのクロスオーバーに関する機会が浮上
エージェント vs 人間: エージェンティック推論の台頭: 単一ターンの相互作用からエージェンティック推論へと移行し、モデルが計画・推論し、複数段階にわたって実行
地域的展望: LLMの利用はますます グローバルかつ分散化 し、アジアのシェアは13%から31%へ上昇、中国が主要プレイヤーとして台頭
コスト vs 利用の力学: LLM市場はまだコモディティ化しておらず、価格だけでは利用量を十分に説明できない
- オープンソースモデルが継続して 効率的フロンティア を押し広げ、クローズドシステムの価格決定力を圧縮
維持率とシンデレラのガラスの靴現象: 基盤モデルが跳躍するとき、維持率が防御可能性の真の尺度となる
- モデルとワークロードの適合性が中核的な競争力

限界

単一プラットフォーム（OpenRouter）の限られた時間窓で観測されたパターンであり、より広い生態系については部分的な視野しか提供しない
企業利用、ローカルホスティングでのデプロイ、クローズドな内部システムなどはデータ範囲外
一部の分析は 代理指標 に依存: 多段階またはツール呼び出しによるエージェンティック推論の識別、課金ベースの地域推定など
結果は決定的な測定値というより 示唆的な行動パターン として解釈する必要がある

結論

LLMが世界のコンピューティングインフラに統合される方式について、実証的な視点を提供
過去1年でo1級モデルの登場により推論への認識が段階的な変化を引き起こし、単発ベンチマークを超えて、プロセスベースの指標、遅延とコストのトレードオフ、オーケストレーション下での成功へと評価が転換
LLM生態系は 構造的に多元的 であり、ユーザーは能力、遅延、価格、信頼など複数の軸に沿ってシステムを選択
推論そのものも変化の最中にある: 静的な完成から 動的オーケストレーション へ、エージェンティック推論が台頭
地域的にも より分散化 し、アジアのシェアが拡大、中国がモデル開発者であると同時に輸出者として台頭
o1は競争を終わらせるのではなく 設計空間を拡張 し、モノリシックな賭けではなくシステム思考へ、直感ではなく計測へ、リーダーボードの差分ではなく経験的な利用分析へと移行
次の段階は運用上の卓越性に集中: 実際のタスク完了の測定、分布変化下での分散の低減、プロダクション規模ワークロードの実際の要求にモデルの挙動を整合

OpenRouterのAI現況レポート：100兆トークンの実証研究

研究概要と方法論

オープンソース vs クローズドモデル

主要なオープンソースプレイヤー

モデルサイズ vs 市場適合性: 中型が新たな小型

オープンソースモデルの用途

エージェント的推論の台頭

推論モデルが全体利用量の半分以上を占有

ツール呼び出し採用の増加

プロンプト-生成の形態変化

より長いシーケンス、より複雑な相互作用

含意: エージェント的推論が新たなデフォルト

カテゴリ: 人々はLLMをどのように使っているのか？

支配的なカテゴリ

カテゴリ内のタグ構成

プロバイダー別インサイト

地域: LLMの利用は地域ごとにどう異なるか

地域別の利用分布

言語分布

LLMユーザー維持率分析

シンデレラの「ガラスの靴」現象

含意

コスト vs 利用ダイナミクス

カテゴリ別AIワークロード細分化分析

AIモデルの実効コスト vs 利用

議論

限界

結論

関連記事

まだコメントはありません。