Grok 4がいまや最先端のAIモデルに

(twitter.com/ArtificialAnlys)

5 ポイント投稿者 GN⁺ 2025-07-11 | 5件のコメント | WhatsAppで共有

xAIのGrok 4が主要ベンチマークでAIモデル首位を獲得
AAI IndexではGrok 4が73点で、OpenAI o3(70点)、Google Gemini 2.5 Pro(70点)、Anthropic Claude 4 Opus(64点)、DeepSeek R1 0528(68点)を上回る
Grok 4はコーディングと数学関連ベンチマークでも最高スコアを記録し、GPQA Diamond(88%)、Humanity’s Last Exam(24%)などで新記録を樹立
価格はGrok 3と同じで、トークン単価はClaude 4 Sonnetと同水準、Gemini 2.5 Proやo3よりやや高い
256kトークンのコンテキストウィンドウ、テキスト/画像入力、関数呼び出し、構造化出力対応など主要機能を提供

Grok 4、xAIのリーダーモデルに浮上

Artificial Analysis Intelligence Index 73点で、Grok 4が主要ベンチマークで1位を記録
OpenAI o3(70点)、Google Gemini 2.5 Pro(70点)、Anthropic Claude 4 Opus(64点)、DeepSeek R1 0528(68点)を上回り、xAIが初めてAIの先頭に立った事例となる
以前のGrok 3も競争力はあったが、Grok 4はxAIが首位を取った初のモデル

ベンチマークと評価結果

コーディング指数(LiveCodeBench & SciCode)、数学指数(AIME24 & MATH-500)でともに1位を記録
**GPQA Diamond 88%**で、従来のGemini 2.5 Proの記録(84%)を更新
**Humanity’s Last Exam 24%**で、従来のGemini 2.5 Proの記録(21%)を上回る
MMLU-Pro 87%、**AIME 2024 94%**などで同率最高点を記録
出力速度75トークン/秒で、o3(188)、Gemini 2.5 Pro(142)、Claude 4 Sonnet Thinking(85)よりは遅いが、Claude 4 Opus Thinking(66)よりは速い

その他の主要情報

256kトークンのコンテキストウィンドウを提供 (Gemini 2.5 Pro: 1M、Claude 4 Sonnet/Opus: 200k、o3: 200k、R1 0528: 128kと比較して上位)
テキストおよび画像入力に対応
関数呼び出しと構造化出力に対応
価格設定: Grok 3と同じく1M入力/出力トークンあたり$3/$15、キャッシュ入力トークンあたり$0.75
- Claude 4 Sonnetと同水準で、Gemini 2.5 Proおよびo3よりはやや高い
Grok 4はxAI APIおよびGrokチャットボット(X/Twitter)、Microsoft Azure AI Foundryなどで提供予定

要約

Grok 4はxAIが首位に立った最初のAIモデルで、ベンチマークと数値上で主要競合モデルをすべて上回る
強力な推論能力、多様な入出力方式、高いコンテキスト対応により業界リーダーシップを示す
実際のX/Twitter向けモデルとAPI向けモデルでは実装の詳細が異なる可能性がある

5件のコメント

slowandsnow 2025-07-11

とりあえず無料公開されるまでは信じない。Grokは30ドルもするから、購読するのが怖い…

paruaa 2025-07-11

アラインメントの工程が少ないモデルの性能だと考えればよさそうですが、たぶん修正を食らって性能が下がるのではないかと思います

click 2025-07-11

gemini cli を使うとき、1Mコンテキストのおかげでユーザー体験が次元違いなんですよね。
コードベース全体をそのままコンテキストに載せられるのはゲームチェンジャーです。

koolgu 2025-07-11

気になるのは、コンテキストサイズがモデルの利用にどれほど影響するのかという点だ。いまだにベンチマークや見かけだけで何が1位だと言うのは、知らない人たちにバイラルマーケティングしているのと何が違うのか。

GN⁺ 2025-07-11

Hacker Newsの意見

誰がGrokに金を払って使うのか想像もできないし、そのうえ最近は完全に問題を起こしているように見える。xAIのバリュエーションはただの幻想だ
- 私はGrokに課金して使っている。ここ数か月はGoogleの代わりにGrokを使っている。X graphにアクセスできるので本当に便利だし、最新情報も多い。ClineやCursorでも使えたらいいのに
- 問題を起こしたのはGrokモデルではなくXの@grokボットだと分かっているのか気になる。GrokのAPI版が突然意味もなくヒトラーの真似をし始めることはない（こちらが直接頼まない限り）
ARC-AGI2ではo3の4倍、opus 4の2倍の性能を記録している……ほかの独立ベンチマークでも強い結果が出ている。各モデルが1か月ずつ「世界最高」と主張する短いサイクルの流行が回り続けているが、この価格なら消費者には良いことだ。オープンモデルの学習データセットもさらに多様化しており、ウィンウィンだ。有名人に対する感情的ないがみ合いのせいで、苦しい言い訳が繰り返されるのを見るのは残念だ。多くの人にはメディアデトックスが必要だ。以前はLLMを「確率的オウム」と呼んでいたが、今このスレッドやRedditを見ると、むしろ人間のほうが愚かで憎悪に満ちたことをオウム返しのように繰り返している。もっと良くならなければならない
自分のコードにも今後ヒトラー関連の応答が出るのか気になる。修正: これがまたしても「天才的な」マーケティング施策だと気づかなかった自分が間抜けに感じる