- xAIのGrok 4が主要ベンチマークでAIモデル首位を獲得
- AAI IndexではGrok 4が73点で、OpenAI o3(70点)、Google Gemini 2.5 Pro(70点)、Anthropic Claude 4 Opus(64点)、DeepSeek R1 0528(68点)を上回る
- Grok 4はコーディングと数学関連ベンチマークでも最高スコアを記録し、GPQA Diamond(88%)、Humanity’s Last Exam(24%)などで新記録を樹立
- 価格はGrok 3と同じで、トークン単価はClaude 4 Sonnetと同水準、Gemini 2.5 Proやo3よりやや高い
- 256kトークンのコンテキストウィンドウ、テキスト/画像入力、関数呼び出し、構造化出力対応など主要機能を提供
Grok 4、xAIのリーダーモデルに浮上
- Artificial Analysis Intelligence Index 73点で、Grok 4が主要ベンチマークで1位を記録
- OpenAI o3(70点)、Google Gemini 2.5 Pro(70点)、Anthropic Claude 4 Opus(64点)、DeepSeek R1 0528(68点)を上回り、xAIが初めてAIの先頭に立った事例となる
- 以前のGrok 3も競争力はあったが、Grok 4はxAIが首位を取った初のモデル
ベンチマークと評価結果
- コーディング指数(LiveCodeBench & SciCode)、数学指数(AIME24 & MATH-500)でともに1位を記録
- **GPQA Diamond 88%**で、従来のGemini 2.5 Proの記録(84%)を更新
- **Humanity’s Last Exam 24%**で、従来のGemini 2.5 Proの記録(21%)を上回る
- MMLU-Pro 87%、**AIME 2024 94%**などで同率最高点を記録
- 出力速度75トークン/秒で、o3(188)、Gemini 2.5 Pro(142)、Claude 4 Sonnet Thinking(85)よりは遅いが、Claude 4 Opus Thinking(66)よりは速い
その他の主要情報
- 256kトークンのコンテキストウィンドウを提供 (Gemini 2.5 Pro: 1M、Claude 4 Sonnet/Opus: 200k、o3: 200k、R1 0528: 128kと比較して上位)
- テキストおよび画像入力に対応
- 関数呼び出しと構造化出力に対応
- 価格設定: Grok 3と同じく1M入力/出力トークンあたり$3/$15、キャッシュ入力トークンあたり$0.75
- Claude 4 Sonnetと同水準で、Gemini 2.5 Proおよびo3よりはやや高い
- Grok 4はxAI APIおよびGrokチャットボット(X/Twitter)、Microsoft Azure AI Foundryなどで提供予定
要約
- Grok 4はxAIが首位に立った最初のAIモデルで、ベンチマークと数値上で主要競合モデルをすべて上回る
- 強力な推論能力、多様な入出力方式、高いコンテキスト対応により業界リーダーシップを示す
- 実際のX/Twitter向けモデルとAPI向けモデルでは実装の詳細が異なる可能性がある
5件のコメント
とりあえず無料公開されるまでは信じない。Grokは30ドルもするから、購読するのが怖い…
アラインメントの工程が少ないモデルの性能だと考えればよさそうですが、たぶん修正を食らって性能が下がるのではないかと思います
gemini cli を使うとき、1Mコンテキストのおかげでユーザー体験が次元違いなんですよね。
コードベース全体をそのままコンテキストに載せられるのはゲームチェンジャーです。
気になるのは、コンテキストサイズがモデルの利用にどれほど影響するのかという点だ。いまだにベンチマークや見かけだけで何が1位だと言うのは、知らない人たちにバイラルマーケティングしているのと何が違うのか。
Hacker Newsの意見