Grok 4リリース
(twitter.com/xai)- Grok 4は、xAIが約2年ぶりにリリースした最新AIモデルで、あらゆる分野で大学院生を圧倒する知能と推論力を実現
- 訓練規模と計算資源は100倍以上増加し、強化学習(RL)中心に進化して人間レベルを超える問題解決能力を実証
- ARC-AGIスコア15.9%を達成し、現存するAIの中でも最高水準の抽象的推論および汎用知能評価で優れた成果を記録
- Humanity’s Last Exam(HLE)などさまざまなベンチマークで、**外部ツール未使用時26.9%、ツール使用時41〜50.7%**という革新的な結果を示す
- ネイティブ音声モードの導入により、リアルタイム会話や感情表現、低遅延応答など人間に近いインタラクションを実現
Grok 4
- Elon Muskが設立したxAIが約2年ぶりにGrok 4を公開し、「世界最高のAIモデル」であることを強調
- SAT、GREなどの標準試験で満点を取り、あらゆる学問分野の大学院・博士レベルの問題でも前例のない優れた成果を示した
"学術的な質問に関しては、Grok 4はすべての科目で大学院生より賢い"
- Grok 2はコンセプトモデル、Grok 3は多様なデータソースに基づく事前学習に重点を置いていた一方、Grok 4は2と比べて100倍、3と比べて10倍多い計算資源とデータで訓練された
- Colossusスーパーコンピュータ(20万GPU)で事前学習およびRL中心に学習
- 強化学習(RL) に注力し、モデルが問題解決の過程でフィードバックを受け、段階的に性能を改善する自己誤り訂正構造を採用
- 論理的問題解決力と「first principles」の思考に基づき、短期間で最大の進歩を達成したことを強調
2つのバージョンのモデル
- 基本モデルのGrok 4と性能向上版のGrok 4 Heavy
- Grok 4 Heavyはマルチエージェント方式で複数のエージェントが同時に問題を解き、互いの結果を比較して最適な答えを見つける集合知を実現
- SuperGrok Heavyサブスクリプションサービスで利用可能(月額300ドル)
AGI Scoring Breakthrough
- Grok 4はARC-AGIテストで15.9%という業界最高水準のスコアを記録
- ARC-AGIはモデルの汎用知能と抽象的な問題解決能力を評価し、視覚的パターン認識と新しいシナリオへの適用能力を重点的に測定する
Humanity's Last Exam (HLE) の成果
-
2025年1月に導入されたHumanity’s Last Exam(HLE) は、数学、生物、社会科学、物理、AI、工学、化学など100以上の分野、2,500問で構成された超高難度ベンチマーク
-
Grok 4の成績: 「実際の人間や既存AIが到達できないレベル」
- ツール未使用時: 26.9%
- ツール活用(Grok 4 Heavy): 41%
- テスト時の追加計算(32倍)を適用: 最大50.7%に到達
-
ツール未使用は内蔵された言語・推論能力だけで問題を解き、ツール使用はコード実行・Web検索・外部データ活用などマルチエージェントシステムと組み合わせた方式
-
トレーニングコンピュートは20万基のGPUを備えたColossusスーパーコンピュータでモデル知識とツール使用能力を訓練し、テストタイムコンピュートは問題解決時に複数のモデルを並列実行して結果検証の過程を含む
"Grok 4はあらゆる分野でPhDレベル以上"
"近いうちに新技術/新しい物理学の発見まで期待している"
主なAIベンチマーク成績
- AIME: 高校レベルの複雑な数学問題の解決力
- GPQA: 物理など大学院レベルの科学的推論評価
- LiveCodeBench: Pythonプログラミングチャレンジに基づくコーディング能力の測定
- MMLU-Pro: さまざまな専門分野の高難度多肢選択問題を解く能力
- LOFT: 長文テキストから複雑なクエリに必要な情報を抽出する能力の評価
実用事例とリアルワールドへの適用
- ビジネスシミュレーション(ベンディングベンチ)でGrok 4は前モデル比2倍以上の成果と一貫性を示し、長期的な戦略遂行能力を証明
- 生命科学研究所などでは、大規模な実験ログ分析、仮説導出、医療画像読影に導入され、実際の業務効率を証明
- ゲーム開発ではゲームアセットの自動収集とコード生成まで支援し、1人の開発者が3Dゲームを素早く完成できるようにする
ネイティブ音声モードの革新
- Grok 4はリアルタイム音声会話をサポートし、途中での自然な割り込み、感情的な抑揚の理解/再現、超低遅延応答などにより、従来のTTSシステムを超える人間型インタラクションを提供
- 複数種類の音声(英国風、トレーラースタイルなど)を追加し、ライブデモでリアルタイム会話の滑らかさ、迅速さ、多様な活用性を実演
APIとエコシステム拡張
- Grok 4はAPIとしても公開され、誰でもベンチマークテストやビジネス適用が可能
- 実際に金融、科学、エンターテインメントなど多様な分野のパートナーが導入中で、リアルワールドでのインパクトを拡大
- 256k context lengthを提供し、長文・複合作業の処理能力を強化
限界と今後の発展
- 現時点でGrok 4の最大の弱点は、画像・動画などマルチモーダル理解/生成能力の不足
- まもなく訓練完了予定のv7 foundation modelと追加で強化されたRLにより、ビジョン・動画・音声を全方位で改善予定
- 動画生成モデル(100,000+ GB200 GPU活用)の開発とリリースを予告
xAIの今後のロードマップ
- 2025年8月: コーディングモデルをリリース予定
- 2025年9月: マルチモーダルエージェントを公開
- 2025年10月: 動画生成モデルを発表予定
- ツールとモデル性能を継続的に強化していく予定
結論と示唆
- Grok 4は推論力、学術的問題解決力などで現存する最高クラスのAIと実質的に競合、または上回る水準を証明
- 前例のない知能・推論力、リアルタイム音声インタラクション、ツール活用およびマルチエージェント構造など、次世代AGIへの実質的な転換点を提示
- 実務/ビジネス/ゲーム/研究/エンターテインメントなど多方面への拡張性とともに、xAIは最も速いAGI企業として位置づけられるだろう
- xAIの速い開発サイクルと積極的な動きは、AI産業の競争が引き続き加速していることを示している
6件のコメント
Grok 4がついにトップのAIモデルに
Simon WillisonによるGrok 4レビュー
Grokはイスラエル・パレスチナ問題についてElon MuskがXで何と言っているかを検索する
実際に使ってみないと分かりませんが、20万基のGPUと人材プールがあれば、これほど攻撃的な成長も可能なのですね。
コロッサスが100万基のGPUになったら、またどれほど良くなるのでしょうか。
H100を5,000万円として、GPU価格だけで50兆円。データセンターを建設し、周辺の電力も必要なので、さらに20兆円ほどかかるということで、70兆円ですね。AIはますます資金力勝負になってきている気がします。
なんでいきなり大学院生を引っ張り出して叩くんだよw
wwwww 突然ぶん殴られた大学院生、ぽかーん……
Grok 4がすごいのはわかりますが、「近いうちに新技術や新しい物理学の発見まで期待する」のような英語圏特有の言い回しは面白いですね。近いうちにリーマン予想を証明/反証してくれたら、もはやベンチマークなんて不要でしょう?
Hacker Newsの意見
wgetしてくれた。本当にすごい