3 ポイント 投稿者 GN⁺ 10 일 전 | 1件のコメント | WhatsAppで共有
  • AI Index 2026 は、ベンチマーク性能、投資、大衆認識、コンピュート、炭素排出といった指標を通じて、AI全体の流れを集計したレポート
  • 注目すべきAIモデル の公開は米国と産業界を中心に続き、中国は 産業用ロボット設置 で明確な優位を記録
  • 世界の AIコンピュート容量 は2022年以降、毎年3倍以上増加しており、Nvidia GPUが現在の総容量の60%以上を占める
  • マルチモーダルLLM とagentic AIのベンチマーク性能は急速に向上した一方、アナログ時計の読み取りのような一般課題では低い精度が続く
  • 2025年の AI投資 は5,810億ドルを超えて過去最高を記録し、雇用への影響、規制への信頼、大衆の受容度は国や指標によって大きな差が表れた

2026 AI Index レポートの主要指標

  • Stanfordの400ページ超の AI Index 2026 レポートは、ベンチマークスコア、投資、大衆認識など複数の観点からAIの現状を集計
  • 先導的な AIモデル性能 は引き続き加速しており、OpenAIやAnthropicのような大手AI企業は今年後半のIPOに向けて進んでいる
  • AIへの反発も続いており、特に米国では地方政府が新規データセンター開発に対する制限や全面禁止を受け入れ始めている
  • 2021年から2025年までの過去年の報道に続き、2026年のAIの現状を圧縮して示すトレンドを選別

米国のAIモデル優位

  • 米国は過去10年間、注目すべきAIモデル の公開を主導してきており、2025年もその流れを維持
    • Epoch AIによると、米国拠点の組織が2025年に公開した注目モデル数は 50件
    • 中国の産出量は差を縮め始めている
  • 注目モデルのほぼすべては 産業界 から登場
    • 2025年に産業界が公開した注目モデルは 87件
    • 学界と政府機関を合わせたその他の出所による公開は 7件
  • 産業界の比重は長期的に大きく拡大
    • 産業界が公開したモデルは現在、注目モデルの 90%以上 を占める
    • 2015年には 50%未満、2003年には 0 だった

中国のロボティクス導入優位

  • 米国企業は注目すべきAIモデル数では先行するが、ロボティクス導入 では中国が明確な優位
    • International Federation of Roboticsのデータによると、中国の2024年の 産業用ロボット設置台数 は295,000台
    • 日本は約 44,500台、米国は 34,200台 を設置

世界のAIコンピュート急増

  • Epoch AIの総 AIコンピュート容量 指標が、AIインフラ拡大の代表的な数値として示されている
  • Nvidiaの H100e性能 を基準尺度としたグラフでは、世界のAIコンピュート容量は2022年以降、毎年3倍以上増加
    • 2021年を最初の追跡年とすると、総AIコンピュートは 30倍増加
  • この拡大でNvidiaが最大の受益者となった
    • Nvidia GPU が現在、世界の総AIコンピュート容量の 60%以上 を占める
    • 独自のAIハードウェアを設計するAmazonとGoogleがそれに続く

AI学習と推論の炭素排出

  • AI学習過程の 炭素排出量 は前年も指摘されていた項目であり、2026年も懸念が続く
  • 最新のフロンティア 大規模言語モデル の学習は、非常に大きな排出量と推定される
    • xAIの Grok 4 の学習排出量推定値は、炭素換算で 72,000トン超
    • OpenAI GPT-45,184トン、Meta Llama 3.1 405B8,930トン と推定
  • Ray Perraultは、これらの数値が 推定値 であることを明らかにし、解釈に注意を促した
    • “These estimates should be interpreted with caution”
    • Grokについては、Forbesの記事、xAIの発言、その他の検証不可能な出所から推論した入力値に大きく依存しており、不確実性 がある
    • Epoch AIはGrok 4の排出量を、独立に約 140,000トン CO₂ とさらに高く推定
  • AIの 推論排出量 も増加中で、モデル間の差も大きい
    • 最も非効率な推論モデルの排出量は、最も効率的なモデルより 10倍以上
    • DeepSeek V3 は中程度の長さのプロンプト応答時に約 23ワット 消費すると推定
    • Claude 4 Opus は約 5ワット 消費すると推定

LLMベンチマーク性能の加速

  • 過去10年間でAIモデルの性能は非常に速く向上しており、グラフ上ではその進歩速度がさらに加速しているように見える
  • 特に マルチモーダルLLM は、新たに作られるベンチマークをほぼ即座に攻略する水準まで進展
  • Agentic AI 領域の伸び幅が最も急
    • チャート右側の2本の急勾配の線は、自律的なコンピュータ利用を評価する OSWorld benchmark
    • 自律コーディングを評価する SWE-Bench Verified ソフトウェアエンジニアリングベンチマーク
  • Humanity’s Last Exam でも性能は急速に向上
    • 2025年のStanford AI Indexで1位モデルだったOpenAI o1 の正答率は 8.8%
    • その後、精度は 38.3% まで上昇
    • 2026年4月時点の最高得点モデルであるAnthropic Claude Opus 4.6 やGoogle Gemini 3.1 Pro などは 50%超
  • Ray Perraultは ベンチマークと現実性能の対応関係 に注意を促している
    • “We generally lack measures of how well a system (or agent) needs to function in a particular setting”
    • 法的推論ベンチマークの精度が 75% であっても、実際の法律事務所業務への適合性は分かりにくいと述べた

医療分野のAI研究拡大

  • 医療研究 でのAI採用が急速に増加
  • AIベースの 創薬 関連論文数は、この2年間で 2倍以上増加
  • 医療画像とテキストを同時に扱う マルチモーダル生物医学AI 論文数は、2年前比で 2.7倍

アナログ時計の読み取り限界

  • 一部領域での急速な向上とは対照的に、アナログ時計の読み取り やカレンダー理解のような一般課題では弱点が続く
  • マルチモーダルLLMのアナログ時計読取能力を測定する ClockBench では、最高性能モデルでも成功確率は半分程度
    • OpenAI GPT-5.4 の正答確率は 五分五分
  • ほとんどのモデルはこれよりはるかに低い成績
    • Anthropic Claude Opus 4.6 の精度は 8.9%
    • 同じモデルがHumanity’s Last Examでは最高水準のスコアを記録した点も併せて言及
  • Ray Perraultは、これをより一般的な問題と結びつける
    • 言語と画像、声のトーンのような他のモダリティの組み合わせを問う場合でも、言語成分 が予想以上に大きな比重を占める
    • 非言語情報を完全に無視する水準にまで至りうるという研究の流れにも言及

2025年のAI投資が過去最高

  • AIモデル性能の向上とともに、AI投資 も連動して上昇
  • AI分析企業Quidのデータによると、2025年のAI投資は 5,810億ドル超 で新記録
    • 2024年の 2,530億ドル の2倍以上
    • それまでの最高値だった2021年の 3,600億ドル も大きく上回る
  • 2021年と異なり、2025年の記録は M&A ではなく、AI企業への 民間投資 が主導
  • 投資資金の大半は米国に流入
    • 昨年の米国内AI投資額は 3,440億ドル超

ソフトウェアエンジニアのAI集中

  • GitHubでの AI関連プロジェクト 数は2025年までに 558万件 へ急増
    • 2020年比で約 5倍
    • 2024年比で 23.7%増
  • この増加は、単にAI生成プロジェクトが氾濫しただけには見えない
    • スター10件以上 のプロジェクト数も同様の速度で増加
    • AIプロジェクト全体が受けた スター数 も同様の速度で増加
    • 人間の関与があることを示唆する
  • 代表的な人気事例として、オープンソースのagentic AIソフトウェア OpenClaw が挙げられる
    • GitHubで 352,000 stars を獲得
  • Ray Perraultは、AIボットやエージェントのプロジェクトが熱狂の一部に影響している可能性は認める
    • “probably the intensity of GitHub use is highly correlated with the intensity of AI use”
    • Stanfordレポートでは言及されていない活動追跡サイト Agents in the Wild によると、GitHub活動の多くは依然として人間が行っているようだと述べた
  • コンピュータサイエンス論文 でもAI熱は強い
    • AI関連のコンピュータサイエンス論文数は、この10年間で 102,000件から258,000件 へと2倍以上に増加
    • 2024年時点で、このうち 68%以上 は学界由来
    • 政府と産業界の比率はそれぞれ約 11.5%12.5%
    • 成長は machine learningcomputer visiongenerative AI 分野が主導

雇用へのAI影響の不確実性

  • 生成AIの拡大とともに 雇用不安 が高まったが、現在のデータは入り混じった結果を示している
  • AI代替リスクが高い職種と見なされる software developerscustomer support agents の年齢帯別・正規化人数グラフが提示されている
    • 初級職は減少
    • 中堅・シニア職は維持または増加
  • こうした変化は、より広い経済の流れと切り離して解釈しにくい
    • レポートは多くの職種全般で 失業率上昇 に言及
    • 予想に反して、AI曝露が最も低い労働者の失業率上昇幅のほうが、AI曝露が最も高い労働者より大きい

AIに対する大衆認識の変化

  • Ipsos調査では、AIに対する 楽観論 がここ数年で小幅ながら目立って増加
    • “benefits outweigh the drawbacks” と答えた割合は2024年の 55% から 59% へ上昇
    • AIを “good understanding” しているという回答は 67% から 68% へ小幅上昇
  • 類似の質問でも、全体の受容度は否定より肯定が優勢だが、一部では否定的感情も増加
    • 回答者の 52% が、AIを使う製品やサービスは自分を “nervous” にすると回答
  • 国ごとの差は大きい
    • 中国、Malaysia、Thailand、Indonesia、Singaporeを含む 東南アジア の国々はより前向き
    • 年間ベースで最も大きな好転は Germany 12%France 10%the Netherlands 10%
    • Colombia-6% で最も大きな悪化を記録

AI規制への信頼の国別差

  • AIが前向きな影響を与えるという認識の増加とともに、政府規制への信頼 に対する深い不信も一部の国では併存
  • 特に米国はAI投資の先導国であるにもかかわらず、規制信頼度は最低水準に近い
    • Ipsos調査で、政府のAI規制を信頼すると答えた米国の回答者は 31%
  • 多くの欧州諸国と日本も低い信頼水準
  • アジアと南米の国々は、政府のAI規制能力に対する信頼が最も高い
  • 米国とColombiaの対比が際立つ
    • 米国はAI規制に深い不信がある一方、多数の回答者がAIの便益は欠点より大きいと見ている
    • ColombiaはAI規制への信頼は高いが、AI全般に対する感情は悪化
  • 2025年のAIナラティブの縮図のように、モデル性能の質社会的影響に対する認識 は課題や問いによって大きく変わる

1件のコメント

 
GN⁺ 10 일 전
Hacker Newsの意見
  • 若い層のAI認識は思ったほど明るくない点を指摘したい。Gallup調査を見ると、懐疑感がかなりはっきりしているように見える

    • 私はこれを、AIの本質的な限界を少しずつ知っていく過程だと見ている
    • 私はこの雰囲気は一時的なものだと思う。歴史上の新しい技術転換のたびにそうだったように、結局みんな適応して活用方法を見つけるだろうと思う
  • 最新のフロンティアLLMを1つ学習させるのに7万2千トンを超える炭素排出が出るとしても、世界全体の年間380億トン規模と比べれば相対的に小さいという考えだ

    • 私は、LLM 1つの学習排出量が1万7千人分の年間排出量に相当するという点は、まったく些細ではないと思う。記事では昨年より8倍増加しており、2倍ほど過小推定されている可能性もある。しかも、ハードウェア、学習データ収集ボット、プロンプト処理のような全般的な利用は含まれておらず、こうした大型モデルは複数あり、小型モデルは数千から数万ある。今年のAI全体の排出量が8千万トンCO2eを超えるという推定は、AustriaやIsraelのような国全体より大きいので、決して軽くはない
    • 私はこうも見られると思う。モデル1つの学習に7万2千トンかかり、そのモデルを1億人が使うなら、1人あたり0.00072トン水準だ。記事基準で平均的な人間の年間排出量は5トン超、米国人は18トンほどなので、ここに0.00072を足しても体感はほとんどないと思う。もちろん推論コストは別だ
    • xAIがあえて炭素集約度を高めたように見える点を考慮しても、この数値は事実上ごく小さいと思う。しかも2025年の主要モデルを2つ選んでどちらもGrokなのは、その年基準で最も有用性が低く、使われず、興味も持たれていない部類のモデルを持ち出したようなもので、少し滑稽に感じる
  • 私は結局、誰も堀 moatを持てないと思うので、むしろ投資家の錯覚だけをさらに大きくするグラフとして読める

    • 私は堀は確実に生まれると思う。トークン品質に予算を集中することもできるし、少なくてもより良いトークンを使うこともできる。ここにユーザーベースと参加度が加われば、新規参入者が追いつきにくいフライホイールが作られる。市場は複雑なので、単純化すると見落とすものが多い
    • 資本とモメンタム自体も堀だと思う。中国モデルが蒸留を活用しているのは確かだが、まだ最初から大規模モデルを学習させる姿はあまり見ていない。ただ、チップがもっと安くなり、中国製チップが本格化すれば状況は変わるかもしれない
  • Chinaのロボティクス先導も目を引くが、私に最初に飛び込んできたのはGrokの排出量チャートだった

    • 記事中の「この推定値は注意して解釈する必要があり、Grokの場合は公開報道に基づいて推論した入力値に大きく依存する」という文言を見ると、そのチャートは信頼性の面で少し疑わしく見える
  • GitHubプロジェクト作成数が増えたからといって「ソフトウェアエンジニアがAIに全振りした」と言うのはかなりおかしく感じる。リポジトリを1つ作ったからといって全員がソフトウェアエンジニアになるわけではないのに、もしそうなら他の勉強はしなくてもよかったのではとさえ思う

    • その指標が良くないという点には同意で、代わりに Claude Code GitHub Commits Over Time のような指標に変えるほうがよいと思う。もちろんこれも完璧ではないが、少なくとも少しは不完全さの少ない指標で、何か意味のある流れはもっとよく示していると感じる
  • 「Chinaがロボティクスで先行している」という部分はAIとあまり関係なさそうに見える。Chinaのグラフは2012年からほぼ同じ軌跡なので、そのチャートは記事の文脈にあまり合っていないと感じる

    • ChatGPTはその時まだなかったとしても、ロボティクスを動かしていたML技術自体はすでにその時期にも十分に機能していたと思う
  • 「AIモデルの学習は莫大な炭素を排出しうる」という話はその通りだが、私が本当に見たいのは、世界全体でこれらのモデルをサービス運用しながらどれだけ炭素が出ているのかについてのグラフだ

  • 「過去10年間でAIモデルの性能は驚くべき速度で改善し、その進歩は加速中」という文章には同意しにくい。私には、ほぼすべての分野がすでに停滞区間 plateauに入りつつあるように見える。競技数学のように最近始まった分野はまだそこまでではないように見えても、過去のグラフのパターンからすると、結局は似たように停滞する可能性が高そうだ

  • いまだにState of AI in 2026という表現がよく理解できない

  • この投稿は重複投稿に見える。原文はこのスレッド、出典はStanford HAIの2026 AI Index Report