Grok 4リリース

(twitter.com/xai)

7 ポイント投稿者 GN⁺ 2025-07-11 | 6件のコメント | WhatsAppで共有

Grok 4は、xAIが約2年ぶりにリリースした最新AIモデルで、あらゆる分野で大学院生を圧倒する知能と推論力を実現
訓練規模と計算資源は100倍以上増加し、強化学習(RL)中心に進化して人間レベルを超える問題解決能力を実証
ARC-AGIスコア15.9%を達成し、現存するAIの中でも最高水準の抽象的推論および汎用知能評価で優れた成果を記録
Humanity’s Last Exam(HLE)などさまざまなベンチマークで、**外部ツール未使用時26.9%、ツール使用時41〜50.7%**という革新的な結果を示す
ネイティブ音声モードの導入により、リアルタイム会話や感情表現、低遅延応答など人間に近いインタラクションを実現

Grok 4

Elon Muskが設立したxAIが約2年ぶりにGrok 4を公開し、「世界最高のAIモデル」であることを強調
SAT、GREなどの標準試験で満点を取り、あらゆる学問分野の大学院・博士レベルの問題でも前例のない優れた成果を示した

"学術的な質問に関しては、Grok 4はすべての科目で大学院生より賢い"
Grok 2はコンセプトモデル、Grok 3は多様なデータソースに基づく事前学習に重点を置いていた一方、Grok 4は2と比べて100倍、3と比べて10倍多い計算資源とデータで訓練された
Colossusスーパーコンピュータ(20万GPU)で事前学習およびRL中心に学習
- 強化学習(RL) に注力し、モデルが問題解決の過程でフィードバックを受け、段階的に性能を改善する自己誤り訂正構造を採用
- 論理的問題解決力と「first principles」の思考に基づき、短期間で最大の進歩を達成したことを強調

2つのバージョンのモデル

基本モデルのGrok 4と性能向上版のGrok 4 Heavy
Grok 4 Heavyはマルチエージェント方式で複数のエージェントが同時に問題を解き、互いの結果を比較して最適な答えを見つける集合知を実現
- SuperGrok Heavyサブスクリプションサービスで利用可能(月額300ドル)

AGI Scoring Breakthrough

Grok 4はARC-AGIテストで15.9%という業界最高水準のスコアを記録
ARC-AGIはモデルの汎用知能と抽象的な問題解決能力を評価し、視覚的パターン認識と新しいシナリオへの適用能力を重点的に測定する

Humanity's Last Exam (HLE) の成果

2025年1月に導入されたHumanity’s Last Exam(HLE) は、数学、生物、社会科学、物理、AI、工学、化学など100以上の分野、2,500問で構成された超高難度ベンチマーク
Grok 4の成績: 「実際の人間や既存AIが到達できないレベル」
- ツール未使用時: 26.9%
- ツール活用(Grok 4 Heavy): 41%
- テスト時の追加計算(32倍)を適用: 最大50.7%に到達
ツール未使用は内蔵された言語・推論能力だけで問題を解き、ツール使用はコード実行・Web検索・外部データ活用などマルチエージェントシステムと組み合わせた方式
トレーニングコンピュートは20万基のGPUを備えたColossusスーパーコンピュータでモデル知識とツール使用能力を訓練し、テストタイムコンピュートは問題解決時に複数のモデルを並列実行して結果検証の過程を含む

"Grok 4はあらゆる分野でPhDレベル以上"
"近いうちに新技術/新しい物理学の発見まで期待している"

主なAIベンチマーク成績

AIME: 高校レベルの複雑な数学問題の解決力
GPQA: 物理など大学院レベルの科学的推論評価
LiveCodeBench: Pythonプログラミングチャレンジに基づくコーディング能力の測定
MMLU-Pro: さまざまな専門分野の高難度多肢選択問題を解く能力
LOFT: 長文テキストから複雑なクエリに必要な情報を抽出する能力の評価

実用事例とリアルワールドへの適用

ビジネスシミュレーション(ベンディングベンチ)でGrok 4は前モデル比2倍以上の成果と一貫性を示し、長期的な戦略遂行能力を証明
生命科学研究所などでは、大規模な実験ログ分析、仮説導出、医療画像読影に導入され、実際の業務効率を証明
ゲーム開発ではゲームアセットの自動収集とコード生成まで支援し、1人の開発者が3Dゲームを素早く完成できるようにする

ネイティブ音声モードの革新

Grok 4はリアルタイム音声会話をサポートし、途中での自然な割り込み、感情的な抑揚の理解/再現、超低遅延応答などにより、従来のTTSシステムを超える人間型インタラクションを提供
複数種類の音声(英国風、トレーラースタイルなど)を追加し、ライブデモでリアルタイム会話の滑らかさ、迅速さ、多様な活用性を実演

APIとエコシステム拡張

Grok 4はAPIとしても公開され、誰でもベンチマークテストやビジネス適用が可能
実際に金融、科学、エンターテインメントなど多様な分野のパートナーが導入中で、リアルワールドでのインパクトを拡大
256k context lengthを提供し、長文・複合作業の処理能力を強化

限界と今後の発展

現時点でGrok 4の最大の弱点は、画像・動画などマルチモーダル理解/生成能力の不足
まもなく訓練完了予定のv7 foundation modelと追加で強化されたRLにより、ビジョン・動画・音声を全方位で改善予定
動画生成モデル(100,000+ GB200 GPU活用)の開発とリリースを予告

xAIの今後のロードマップ

2025年8月: コーディングモデルをリリース予定
2025年9月: マルチモーダルエージェントを公開
2025年10月: 動画生成モデルを発表予定
ツールとモデル性能を継続的に強化していく予定

結論と示唆

Grok 4は推論力、学術的問題解決力などで現存する最高クラスのAIと実質的に競合、または上回る水準を証明
前例のない知能・推論力、リアルタイム音声インタラクション、ツール活用およびマルチエージェント構造など、次世代AGIへの実質的な転換点を提示
実務/ビジネス/ゲーム/研究/エンターテインメントなど多方面への拡張性とともに、xAIは最も速いAGI企業として位置づけられるだろう
xAIの速い開発サイクルと積極的な動きは、AI産業の競争が引き続き加速していることを示している

6件のコメント

xguru 2025-07-13

Grok 4がついにトップのAIモデルに
 Simon WillisonによるGrok 4レビュー
 Grokはイスラエル・パレスチナ問題についてElon MuskがXで何と言っているかを検索する

xguru 2025-07-11

実際に使ってみないと分かりませんが、20万基のGPUと人材プールがあれば、これほど攻撃的な成長も可能なのですね。
コロッサスが100万基のGPUになったら、またどれほど良くなるのでしょうか。

H100を5,000万円として、GPU価格だけで50兆円。データセンターを建設し、周辺の電力も必要なので、さらに20兆円ほどかかるということで、70兆円ですね。AIはますます資金力勝負になってきている気がします。

jujumilk3 2025-07-11

なんでいきなり大学院生を引っ張り出して叩くんだよｗ

sknah 2025-07-11

ｗｗｗｗｗ突然ぶん殴られた大学院生、ぽかーん……

lcanon 2025-07-11

Grok 4がすごいのはわかりますが、「近いうちに新技術や新しい物理学の発見まで期待する」のような英語圏特有の言い回しは面白いですね。近いうちにリーマン予想を証明／反証してくれたら、もはやベンチマークなんて不要でしょう？

GN⁺ 2025-07-11

Hacker Newsの意見

「Heavy」モデルは月額300ドルで、価格がどんどん上がっている印象を受ける。以前は価格は下がり続けると約束されていた気がした。GPUが不足している企業が多いのでこうなっているのだろう。Googleのような企業にはこうした問題はなさそうだ。すでにGemini 2.5 ProはAI Studioで無料で使えていて、しかも32kまで設定しても料金はまったくかからない。もしかするとGemini 3.0も無料開放される可能性があるのではと期待している
- 高性能モデルについて、常に安価であると誰かが約束したことはないと思う。同じ性能水準とトークン数を基準にすれば価格は下がっている。ムーアの法則のように、チップは複雑になり続けても単位あたりの性能は安くなる
- FerrariがModel Tより高価なのや、最も高価なコンピュータが最初のPCよりはるかに高いのと同じ原理だ。実際に価格が下がるのはエントリーレベルか、同じ性能を維持するラインだ。ただ全体の価格帯が広がっていくのは自然な現象だと思う。業界が成熟している兆候として受け止めている。今回はエントリーレベルがVC資金によって人為的に0、あるいは非常に低く設定されていたのが違いだ
- Geminiも価格が上がり続けている点は重要だ。関連リンク
- 推論時間（inference time）によって生じるコストのスケーリング現象だ。結局、AIへのアクセスコストによって「持てる者」と「持たざる者」の格差は大きく広がると思う。世界の大半は数百ドルのサブスクリプション料金を負担できない
- O3は最近80%値下げされた。Grok4は出たばかりで性能も良く、かなり妥当な価格だ。heavy版でなければtoken単価もgrok 3と同じだ。Googleは存在感を高めるためにコストをかぶっているように見える。なので元の投稿の不満はあまり理解できない
今回出たものは本当に新しいSOTA（State of the Art、最新最高モデル）だと思う。o3、Gemini、ClaudeよりHuman’s Last Exam、GPQA、AIME25、HMMT25、USAMO 2025、LiveCodeBench、ARC-AGI 1、2などでスコアが著しく高い。数週間以内に特化型のコーディングモデルも公開予定だ。今日はコーディング性能の話をあまりしていなかった点に注意したい
- 同意する。今日のワールドシリーズ・シミュレーションで不安定な推論のような印象を受けた。Polymarketから数字を取ってきて、自分のデータであるかのように答えていた。もちろん詳しく見ていないので勘違いかもしれないが、こういう事例を見ると、先駆的モデルのセーフティチームに懐疑的な視点を持つ人が必要だと改めて感じる。それでもものすごい進歩だ。ベンチマークが汚染されていない条件なら、日常使いの定番として爆発的な人気を集めそうだ。コーディングでは256kコンテキストだけが唯一の惜しい点で、v7ではより長いコンテキスト、特に動画関連での改善を期待している。とにかく早く使ってみたい
- コーディングモデルがコーディングエージェントで使えるようになってほしい。どこにも見当たらない
- モデルを検閲するとスコアが急激に落ちることはかなり前から証明されている。たとえば爆弾の作り方は防ぐべきだが、Grok 3は最悪のデータにアクセスしながらも一貫して進歩的な立場を取っていた（スポンサー背景を考えると）
- Elon Muskに好意的でなくても、GrokがGoogle、OpenAI、Anthropicというビッグ3に匹敵するところまで追いついたのは本当に驚きだ。もうほぼ同レベルだ
Grok 4をさっき使ってみたが、とても良かった。Java CDKで1000行のEC2インスタンス構築コードを一発で生成した。VPCとSecurity Groupsを含めても構文エラーは一つもなかった。特にuserData（#!/bin/bashコマンド）の生成時に、最新のソフトウェアartifactをGitHubから正確なURLでwgetしてくれた。本当にすごい
- 結果を共有できるならぜひ見せてほしい。これだけ多くのコードが一度にエラーなく出るなら、たしかに驚異的だと思う。grokがこの種のクエリでツール（リンター、サンドボックス実行、Web検索など）も使っているのか気になる
- 単発コードとしては素晴らしいが、ソース管理や共同作業、標準的なSDLC準拠、不変性、状態変更履歴の管理まで求める保守可能なコードとしては、まだかなり不十分だ。もしインターンがこういうEC2デプロイコードを書いてきたら、一つ一つの判断について長い会話が必要になると思う
- JavaではなくTypeScriptでCDKを書かず、あえてJavaを使った理由が気になる。すべての環境を一つの言語で統一しようとしたのかと尋ねている
Grok Heavyの中核トリックは、複数のエージェントを並列に立ち上げて結果を比較する構造だ。全体として非常に印象的なベンチマーク結果だ。高価で遅くなるのは避けられないが、次世代エージェント設計の論理的な流れだ。実際に使ってみたい。ちなみにAPIも公開された。xAIは何かをやり遂げたようだ
- どう動くのかは理解できるが、それでもどこか「hack」のように感じる。LLM自体はもはや明確な進歩がなく、深さ、長さ、幅など外延だけが広がっている印象だ。結局、周辺に「非AI」のツールやロジックを付け足す形で成長しているように見える。生のニューラルネットワークの解法が、単にハードウェア性能の指数関数的成長を待つことだったのと同じように、この方向が解になるのかもしれない
- 高価で遅いとはいえ、実際に次世代SOTAモデルを訓練するなら、どうせこうしたやり方で棄却サンプリングなどにより良質な合成データを使う必要がある。ユーザーから300ドルを取ってこういう体験を提供するのは、かなり妥当な取引に思える
- llm-consortiumに似ているが、モデルの多様性が不足している点が違いだ。karpathyのツイートとllm-consortiumオープンソースを参照できる
- 個人的には、こうした手法は「問題のある会社」ではなく別のところで実装してほしい。自分なりの原則は守り続けたい
- o3 proもおそらくそういう方式で動いていると思う
発表動画を見る余裕がないなら、クリップ版を作っておいた。結論としては本当にすごく、AI競争はますます激しくなっているということだ。Short Clipsを見る
Grok 4で、Pythonからlldbを動かすときの一貫しない挙動の問題を解決できた。DockerとローカルのLinux環境で差があったのだが、address sanitizerが環境によって異なる動作をすることが原因だった。O3では見抜けなかった点をGrok 4はしっかり指摘してくれて感心した
"Grok 4 (Thinking)"がARC-AGI-2で15.9%を達成した。既存の商用SOTAをほぼ倍近く押し上げ、現在のKaggle大会最高記録まで更新した。詳細情報
あまりに印象的ではあるが、Elon個人の性向に合わせてポストトレーニングされたモデルを、企業がAPIプロバイダーとして気軽に選べるのかという疑問は大きい。技術的には優れていても、ビジネス面では限界がありそうだ
GrokはAPIでは使わず、ディープリサーチ用途で使うと常に最高クラスだ。Grok 4はその可能性がさらに大きいように見える
- GrokのTwitter統合は、実利用ケースの中でも群を抜いて優れている。ツイート内で文脈や用語の意味をリアルタイムですぐ聞けるのでとても便利だと感じる
- OpenAIは自分にとっては全競合より明らかに優れている（とはいえ良いと言えるほどではない）が、Grokがリアルタイム更新やITサポート系の質問では最高だと感じたのも事実だ
- <deep research> の意味が何なのか、もう少し具体的に聞かせてほしい
Grokと連携した人がいるのか気になる。これまでLLM連携は本当にたくさんやってきたが、Grokを実際に使っているケースを見たことがない。これを乗り越えなければ誰もこのモデルを信頼しないと思う。本当にまともな実力を見せるまでは企業では使われない。企業らしい雰囲気もない
- Grok 3はAzure AI Foundryに載っている。Telegramとの連携も発表したが、実際にはGrok側がTelegramに3億ドルを支払う構図だった。リンク：Grok 3およびmini、Azure Foundry紹介、BBC記事。いずれにせよ、Grokを選ぶのは深刻な評判リスクだと思う
- Grokがどこでどうやって人材を集めているのか、むしろそちらが気になる。この分野はいま資金も潤沢で優れた研究所も多いので、今では高度なイデオロギーや信念なしに転職を決めるのは難しい気がする。本当にElonを王のように見なしたいAI研究者がそんなに多いのか疑問だ
- Grokで食べ物の画像を視覚的に分析しているが、うまく動く。ブランド認識や、ユーザーが変な撮り方をした写真もよく判別できる。APIも本当に使いやすい
- 先週、自分自身を「Mecha Hitler」と呼んだモデルを実サービスに連携するのは正気の沙汰ではないと思う。Muskのファンではあるが、彼がSamaを批判しながら、自分でも同じように強力だが制御の弱いAIを出している点は必ず指摘したい