7 ポイント 投稿者 GN⁺ 2025-12-29 | まだコメントはありません。 | WhatsAppで共有
  • 100兆トークン以上の実際のLLM利用データを分析した大規模研究であり、2024年12月のo1推論モデル公開以降、AIの推論方式における根本的な転換を追跡
  • オープンソースモデルが全体利用量の約30%まで成長し、DeepSeek V3、Kimi K2など中国のオープンソースモデルが急速にシェアを拡大
  • ロールプレイとプログラミングがLLM利用の二大軸であり、オープンソースモデル利用量の半分以上がロールプレイに集中していて、生産性中心という想定と相反する結果を導出
  • 推論モデルが全トークンの50%以上を処理し、エージェント的推論が新たな基本パターンとして浮上、ツール呼び出しと多段階タスクが増加
  • 初期ユーザーが長期的に高い維持率を示す**「ガラスの靴」効果**が見つかり、モデルとワークロードの適合性が中核的な競争力であることを示唆

研究概要と方法論

  • OpenRouterは300以上のモデルと60以上のプロバイダーを支援するマルチモデルAI推論プラットフォームで、世界中の数百万人の開発者とエンドユーザーにサービスを提供
  • 分析データセットは約2年間の匿名化されたリクエストレベルのメタデータで構成され、プロンプトや生成テキストそのものにはアクセスしない
  • すべての分析はHex分析プラットフォームを通じて、再現可能なSQLクエリ、変換、可視化パイプラインで実施
  • コンテンツ分類は全プロンプトの約**0.25%**を無作為抽出し、GoogleTagClassifierを通じて実施、プログラミング・ロールプレイ・翻訳・一般Q&A・生産性/ライティング・教育・文学/創作・成人などのカテゴリに分類
  • 地域分析は**請求所在地(billing location)**に基づいてユーザー地域を決定し、IPベースより安定したプロキシとして活用
  • 分析期間は主に2024年11月~2025年11月の13か月で、カテゴリ分類分析は2025年5月以降のデータに基づく

オープンソース vs クローズドモデル

  • オープンソース(OSS)モデルは重みが公開されたモデル、クローズドモデルは制限されたAPI経由でのみアクセス可能なモデル(例: Anthropic Claude)と定義
  • オープンソースモデルのシェアは着実に増加し、2025年末時点で約**30%**に到達、これはDeepSeek V3、Kimi K2など主要オープンソースモデルの公開と連動
  • 中国開発モデルは2024年末の週次シェア1.2%から、一部の週では約30%まで急成長し、年間平均で約13.0%を記録
    • Qwen、DeepSeekなどが高速な反復リリースと高密度な公開サイクルで成長を主導
  • クローズドモデルは依然として信頼性と性能上限を規定し、規制対応または企業ワークロードで優位
  • OSSモデルはコスト効率、透明性、カスタマイズ性の面で魅力的であり、現在は約30%で均衡点を形成
  • 両モデルタイプは相互排他的ではなく、マルチモデルスタックの中で相互補完的に活用
  • 主要なオープンソースプレイヤー

    • DeepSeekが総計14.37兆トークンでOSSの中で最大の貢献者だが、新規参入者も急速にシェアを確保
    • Qwen(5.59兆)、Meta LLaMA(3.96兆)、Mistral AI(2.92兆)の順で上位にランクイン
    • 2025年半ばのSummer Inflection以降、市場構造はほぼ独占状態から多元化へ転換
      • MoonshotAIのKimi K2、OpenAIのGPT-OSSシリーズ、MiniMax M2などが数週間内に本番レベルの採用を達成
    • 2025年末時点で単一モデルがOSSトークンの25%を超えず、5~7モデルにシェアが分散
    • OSSエコシステムはイノベーションサイクルが速く、リーダーシップが保証されない極めて動的な競争環境
  • モデルサイズ vs 市場適合性: 中型が新たな小型

    • モデルサイズ分類: 小型(15B未満)、中型(15B~70B)、大型(70B以上)
    • 小型モデルは全体的にシェア低下傾向で、新モデル供給にもかかわらず利用量が減少
    • 中型モデルは2024年11月のQwen2.5 Coder 32B公開により本格的にカテゴリを形成
      • Mistral Small 3(2025年1月)、GPT-OSS 20B(2025年8月)などが強力な競合として浮上
      • ユーザーが能力と効率性のバランスを求めていることを示唆
    • 大型モデルセグメントはQwen3 235B A22B InstructZ.AI GLM 4.5 AirOpenAI GPT-OSS-120Bなど多様な高性能競合へと多元化
    • 小型モデル支配の時代は終わり、市場は中型モデルと大型モデルに二極化する傾向
  • オープンソースモデルの用途

    • OSSモデルの最大用途はロールプレイ(約52%)とプログラミングで、この2カテゴリがOSSトークン利用量の大半を占める
    • ロールプレイが50%以上を占めるのは、オープンモデルのコンテンツフィルタの制約が比較的弱く、ファンタジーやエンターテインメント用途に魅力的であることを反映
    • 中国OSSモデルではロールプレイが約33%で最大だが、プログラミングと技術を合わせると39%となり、より大きな比重を占める
      • Qwen、DeepSeekなどがコード生成やインフラ関連ワークロードでますます多く利用
    • プログラミングカテゴリでは、OSS内シェアが中国OSSと西側OSSの間で動的に変化
      • 2025年半ばには中国OSSが主導したが、Q4にはMeta LLaMA-2 Code、OpenAI GPT-OSSシリーズなど西側OSSが急増
    • ロールプレイトラフィックは2025年末時点で**RoW OSS(43%)とクローズド(42%)**がほぼ均等に分担し、初期の70%クローズド支配から大きく変化

エージェント的推論の台頭

  • 推論モデルが全体利用量の半分以上を占有

    • 推論最適化モデルによるトークンシェアは2025年初頭のごく小さい水準から50%超へ急増
    • GPT-5、Claude 4.5、Gemini 3など高性能システムの公開と、多段階ロジックやエージェント型ワークフローに対するユーザー選好がこの変化を牽引
    • 直近データではxAI Grok Code Fast 1が推論トラフィック最大シェアを占め、Google Gemini 2.5 Pro/Flashが続く
    • オープンモデルであるOpenAI gpt-oss-120bも相当なシェアを維持し、開発者は可能な場合OSSを選好
  • ツール呼び出し採用の増加

    • Tool Call終了理由に分類されたリクエストのトークンシェアが継続的に上昇傾向
    • ツール呼び出しは当初OpenAI gpt-4o-mini、Anthropic Claude 3.5/3.7シリーズに集中していたが、2025年半ば以降はより多くのモデルがツール提供をサポート
    • 2025年9月末以降、Claude 4.5 Sonnetが急速にシェアを拡大し、Grok Code FastGLM 4.5も参入
  • プロンプト-生成の形態変化

    • 平均プロンプトトークンは約1.5Kから6K超へと約4倍に増加
    • 平均生成トークンも約150から400へとほぼ3倍に増加し、主に推論トークンの増加に起因
    • プログラミング関連タスクがプロンプトトークン増加の主な原動力で、20K超の入力トークンを頻繁に使用
    • 他のカテゴリは比較的フラットで低いボリュームを維持
  • より長いシーケンス、より複雑な相互作用

    • 平均シーケンス長は過去20か月で2,000トークン未満から5,400トークン超へと3倍以上増加
    • プログラミング関連プロンプトは一般目的プロンプトより平均3~4倍長いトークン長を記録
    • 長いシーケンスはユーザーの冗長さではなく、組み込みの高度なエージェント的ワークフローの特徴
  • 含意: エージェント的推論が新たなデフォルト

    • 推論シェアの増加、ツール利用の拡大、シーケンスの長文化、プログラミングの複雑性増大などが、LLM利用の中心軸の移動を示唆
    • 中間的なLLMリクエストは、もはや単純な質問や孤立した指示ではなく、構造化されたエージェント類似ループの一部
    • モデルプロバイダーにとっては、レイテンシ、ツール処理、コンテキスト支援、悪意あるツールチェーンに対する堅牢性がますます重要
    • まもなく、まだそうでないとしても、エージェント的推論が推論の大半を占める見通し

カテゴリ: 人々はLLMをどのように使っているのか?

  • 支配的なカテゴリ

    • プログラミングが最も一貫して拡大しているカテゴリで、2025年初頭の約11%から直近では50%超
    • Anthropic Claudeシリーズがプログラミング関連支出の60%以上を継続的に掌握
      • 11月17日の週に初めて60%を下回った
    • OpenAIは7月以降、約2%から8%へとシェアを拡大し、Googleは約15%で安定維持
    • MiniMaxが急速に台頭する新規参入者として注目
  • カテゴリ内のタグ構成

    • ロールプレイ: 約60%が Games/Roleplaying Games で、カジュアルなチャットボットよりも構造化されたロールプレイまたはキャラクターエンジンとして活用
      • Writers Resources(15.6%)、Adult コンテンツ(15.4%)も含む
    • プログラミング: 3分の2以上が Programming/Other とラベル付けされており、幅広い汎用コード関連プロンプトの特性を示す
      • Development Tools(26.4%)とスクリプト言語の小さなシェアにより、新たな専門化の兆候も見られる
    • 翻訳、科学、健康などは比較的フラットな内部構造
      • 翻訳: Foreign Language Resources(51.1%)と Other にほぼ均等に分割
      • 科学: Machine Learning & AI(80.4%)が支配的で、大半はメタAIに関する質問
      • 健康: 最も細分化されたカテゴリで、単一の下位タグが25%を超えない
    • 金融、学術、法律ははるかに分散しており、単一タグはいずれも20%未満
  • プロバイダー別インサイト

    • Anthropic Claude: プログラミング+技術用途が80%超で、ロールプレイと一般Q&Aは少量
    • Google: 翻訳、科学、技術、一般知識など多様な構成で、コーディング比率は2025年末に約18%まで低下
    • xAI: 期間の大半でプログラミングが80%超を占め、11月末にのみ技術、ロールプレイ、学術などへ拡大
      • 無料提供による非開発者トラフィックの流入と関連
    • OpenAI: 2025年初頭には科学系タスクが半分以上を占めていたが、年末には15%未満に減少
      • プログラミングと技術関連の利用がそれぞれ29%を占め、合わせて過半数を構成
    • DeepSeek: ロールプレイ、カジュアルチャット、エンターテインメント志向のやり取りが3分の2以上を占める
    • Qwen: プログラミングが全期間を通じて40〜60%で一貫して維持される一方、科学、技術、ロールプレイなどでは週次変動が大きい

地域: LLMの利用は地域ごとにどう異なるか

  • 地域別の利用分布

    • 北米が単独で最大の地域だが、観測期間の大半では総支出の半分未満
    • 欧州は週次支出シェアが10〜20%台で安定して推移
    • アジアはフロンティアモデルの生産者であるだけでなく、急速に拡大する消費地域としても浮上
      • データセット初期の約13%から直近の約**31%**へと、シェアが2倍以上に増加
    • 大陸別分布: 北米 47.22%、アジア 28.61%、欧州 21.32%、オセアニア 1.18%、南米 1.21%、アフリカ 0.46%
    • 上位10か国: 米国(47.17%)、シンガポール(9.21%)、ドイツ(7.51%)、中国(6.01%)、韓国(2.88%)、オランダ(2.65%)、英国(2.52%)、カナダ(1.90%)、日本(1.77%)、インド(1.62%)
  • 言語分布

    • 英語が82.87%で支配的
    • 中国語簡体字(4.95%)、ロシア語(2.47%)、スペイン語(1.43%)、タイ語(1.03%)、その他(7.25%)

LLMユーザー維持率分析

  • シンデレラの「ガラスの靴」現象

    • ほとんどのリテンションチャートは高い離脱率と急速なコホート減少に支配されるが、初期ユーザーコホートは時間が経っても耐久性のある維持率を示す
    • こうした基礎コホート(foundational cohorts) は、ワークロードが深く継続的なワークロード-モデル適合を達成したユーザーを表す
    • ガラスの靴効果: 急変するAIエコシステムにおいて、各新たなフロンティアモデルが、従来満たされていなかった高価値ワークロードに対して「試され」、技術的・経済的制約に正確に合致したとき、強力なロックイン効果が発生する
    • Gemini 2.5 Proの2025年6月コホートとClaude 4 Sonnetの5月コホートは、5か月目に約**40%**の維持率を示し、後続コホートより著しく高い
    • GPT-4o Mini: 単一の基礎コホート(2024年7月)がリリース時に支配的で粘着性の高いワークロード-モデル適合を確立し、その後の全コホートは同様に離脱
    • Gemini 2.0 Flash、Llama 4 Maverick: 高パフォーマンスの基礎コホートが形成されず、すべてのコホートが同様に低調で、「フロンティア」とは認識されなかった
    • DeepSeekモデル群のブーメラン効果: 一般的な単調減少ではなく、復活ジャンプ 現象が観測された
      • DeepSeek R1の2025年4月コホートは3か月目に、DeepSeek Chat V3-0324の7月コホートは2か月目に維持率が上昇
      • 代替案を試した後に戻ってくるユーザーを示している
  • 含意

    • 最初に問題を解決することが持続的優位として作用する
    • コホートレベルの維持率パターンはモデル差別化の実証的シグナル
    • フロンティアウィンドウの時間的制約: モデルが基礎ユーザーを獲得できる窓は狭く一時的だが、長期的な採用ダイナミクスに決定的
    • 基礎コホートは実質的な技術進歩の指紋であり、AIモデルが目新しさから必需品へと転換した地点を示す

コスト vs 利用ダイナミクス

  • カテゴリ別AIワークロード細分化分析

    • 中央コスト $0.73/1Mトークン を基準に4象限フレームワークを構成
    • プレミアムワークロード(右上): 高コスト・高利用のアプリケーションで、technologyscienceを含む
      • technologyが最も高価でありながら高い利用量を維持しており、複雑なシステム設計やアーキテクチャでは強力なモデルが必要であることを示唆
    • マスマーケットのボリュームドライバー(左上): 高利用・低コストで、roleplayprogrammingscienceが支配
      • programmingは「キラープロフェッショナル」カテゴリとして、最高水準の利用量と高度に最適化された中程度のコストを両立
      • roleplayの利用量はprogrammingに匹敵する水準で、消費者向けロールプレイが最上位のプロ向け用途と同等のエンゲージメントを生み出している
    • 専門エキスパート(右下): 低ボリューム・高コストで、financeacademiahealthmarketingを含む
      • 高リスクなニッチ専門領域であり、正確性、信頼性、ドメイン特化知識への需要が高い
    • ニッチユーティリティ(左下): 低コスト・低ボリュームで、translationlegaltriviaを含む
      • 機能的でコスト最適化されたユーティリティで、コモディティ化されており安価な代替手段が利用可能
  • AIモデルの実効コスト vs 利用

    • 対数-対数スケールでは価格と利用量の相関は弱く、トレンドラインはほぼフラット
    • 需要は比較的価格非弾力的: 価格が10%下がっても利用量は約0.5〜0.7%しか増えない
    • 明確に異なる2つの体制: クローズドモデル(OpenAI、Anthropic)は高コスト・高利用の領域に、オープンモデル(DeepSeek、Mistral、Qwen)は低コスト・高ボリュームの領域に位置
    • 4つの利用-コストアーキタイプ:
      • プレミアムリーダー: Claude 3.7 Sonnet、Claude Sonnet 4など、約$2/1Mトークンで高い利用量を達成
      • 効率的な巨人: Gemini 2.0 Flash、DeepSeek V3 0324など、$0.40/1Mトークン未満で同様の利用量を実現
      • ロングテール: Qwen 2 7B Instruct、IBM Granite 4.0 Microなど、1Mトークンあたり数セントだが、性能の弱さや可視性の制約により利用量は低い
      • プレミアム専門家: GPT-4、GPT-5 Proなど、約$35/1Mトークンで利用量は低く、高リスクなワークロードに限定して使われる
    • Jevonsのパラドックスの証拠: 非常に安価で高速なモデルがより多くのタスクに使われ、総トークン消費が増加
    • 品質と能力はしばしばコストを上回る: 高価なモデル(Claude、GPT-4)の高利用量は、モデルが明らかに優れているか、信頼面で優位にある場合、ユーザーが高コストを受け入れることを示す

議論

  • マルチモデル生態系: 単一モデルがすべての用途を支配しているわけではなく、クローズドモデルとオープンモデルの双方が相当なシェアを確保
  • 生産性を超える利用の多様性: オープンソースモデルの利用量の半分以上がロールプレイとストーリーテリング
    • コンシューマー向けアプリケーション、パーソナライズ、AIとエンターテインメントIPのクロスオーバーに関する機会が浮上
  • エージェント vs 人間: エージェンティック推論の台頭: 単一ターンの相互作用からエージェンティック推論へと移行し、モデルが計画・推論し、複数段階にわたって実行
  • 地域的展望: LLMの利用はますます グローバルかつ分散化 し、アジアのシェアは13%から31%へ上昇、中国が主要プレイヤーとして台頭
  • コスト vs 利用の力学: LLM市場はまだコモディティ化しておらず、価格だけでは利用量を十分に説明できない
    • オープンソースモデルが継続して 効率的フロンティア を押し広げ、クローズドシステムの価格決定力を圧縮
  • 維持率とシンデレラのガラスの靴現象: 基盤モデルが跳躍するとき、維持率が防御可能性の真の尺度となる
    • モデルとワークロードの適合性が中核的な競争力

限界

  • 単一プラットフォーム(OpenRouter)の限られた時間窓で観測されたパターンであり、より広い生態系については部分的な視野しか提供しない
  • 企業利用、ローカルホスティングでのデプロイ、クローズドな内部システムなどはデータ範囲外
  • 一部の分析は 代理指標 に依存: 多段階またはツール呼び出しによるエージェンティック推論の識別、課金ベースの地域推定など
  • 結果は決定的な測定値というより 示唆的な行動パターン として解釈する必要がある

結論

  • LLMが世界のコンピューティングインフラに統合される方式について、実証的な視点を提供
  • 過去1年でo1級モデルの登場により 推論 への認識が段階的な変化を引き起こし、単発ベンチマークを超えて、プロセスベースの指標、遅延とコストのトレードオフ、オーケストレーション下での成功へと評価が転換
  • LLM生態系は 構造的に多元的 であり、ユーザーは能力、遅延、価格、信頼など複数の軸に沿ってシステムを選択
  • 推論そのものも変化の最中にある: 静的な完成から 動的オーケストレーション へ、エージェンティック推論が台頭
  • 地域的にも より分散化 し、アジアのシェアが拡大、中国がモデル開発者であると同時に輸出者として台頭
  • o1は競争を終わらせるのではなく 設計空間を拡張 し、モノリシックな賭けではなくシステム思考へ、直感ではなく計測へ、リーダーボードの差分ではなく経験的な利用分析へと移行
  • 次の段階は運用上の卓越性に集中: 実際のタスク完了の測定、分布変化下での分散の低減、プロダクション規模ワークロードの実際の要求にモデルの挙動を整合

まだコメントはありません。

まだコメントはありません。