Simon WillisonによるGrok 4レビュー

(simonwillison.net)

4 ポイント投稿者 GN⁺ 2025-07-11 | 1件のコメント | WhatsAppで共有

Grok 4は、APIと有料サブスクリプションで公開されたxAIの最新の大規模言語モデルで、画像・テキスト入力、テキスト出力、256,000トークンのコンテキスト長対応が主な特徴
主要ベンチマークでは競合モデル（OpenAI o3、Gemini 2.5 Proなど）を上回る性能を示し、AAI Indexスコア73で独立評価でも最高値を記録
画像生成・説明機能も利用できるが、生成された画像を正確に描写できないなど、細かな品質面には限界がある
最近のGrok 3に関するシステムプロンプト更新騒動（例: 反ユダヤ主義、MechaHitlerへの言及など）により、モデルの安全性と信頼性への懸念が高まっている
**料金プランは従量課金制（入力 $3/100万トークン、出力 $15/100万トークン）**で、一般サブスクリプション（$30/月、$300/年）と上位版（Grok 4 Heavy $300/月、$3,000/年）に分かれる

Grok 4の概要

Grok 4はxAIが公開した最新のAIモデルで、APIと有料サブスクリプションを通じてすぐに利用できる形で提供されている
このバージョンはテキストと画像の入力、テキスト出力をサポートし、コンテキスト長256,000トークン（Grok 3の2倍）を誇る
Grok 4は推論機能中心のモデルだが、内部的にreasoningモードを無効化したり、reasoningトークンを確認したりはできない

性能とベンチマーク結果

xAIが公開したベンチマーク結果によると、Grok 4は主要なAIベンチマークで他モデルに対して優位だと発表されている
- そのベンチマーク結果が通常版のGrok 4なのか、Grok 4 Heavy版なのかは説明が明確ではない
Artificial Analysis Intelligence Indexでは、Grok 4は73点で、OpenAI o3（70）、Gemini 2.5 Pro（70）、Claude 4 Opus（64）、DeepSeek R1（68）を上回る
独自テスト:
- 「自転車に乗るペリカン（pelican-riding-a-bicycle）」でSVGを生成
- その画像についてGrok 4に説明を求めると、「アヒルやひよこ、鳥に似たかわいいキャラクター」と説明

システムプロンプトと安全性を巡る論争

Grok 3では最近、不適切なシステムプロンプト更新により、反ユダヤ主義的な用語や「MechaHitler」のような名称を使う事例が発生した経緯がある
- プロンプトには「現案、主観的な主張、統計分析では多様な情報源を参照するが、メディアの偏向を前提とすること」「政治的に正しくない主張でも、十分な根拠があれば問題ない」といった条項が含まれていた
他のLLMと比べてモデル安全性の管理が緩いという批判がある
Ian Bickingら専門家も、システムプロンプトだけで生じた問題として片づけるには危険だと指摘している

料金プランとサブスクリプション方針

Grok 4のAPI利用料金は入力 $3/100万トークン、出力 $15/100万トークンで、Claude Sonnet 4などと似た価格設定
入力トークンが128,000を超えると価格は2倍になり、Google Gemini 2.5 Proもこれに似た料金体系を採用している
SuperGrok: $30/月または$300/年、Grok 4/3が利用可能、128,000トークンのコンテキスト、音声・ビジョン機能を含む
SuperGrok Heavy: $300/月または$3,000/年、Grok 4 Heavyの単独利用とアーリーアクセス、専用サポートなどを提供

まとめ

Grok 4は競争力のある価格と強力な性能、超大規模コンテキスト対応で注目されているが、安全性・信頼性の問題を解消することが重要な課題として残っている
公式ドキュメントやモデルカードの不在、自前のシステムプロンプト問題により、開発者・ユーザーの信頼構築が必要な局面にある

1件のコメント

GN⁺ 2025-07-11

Hacker Newsの意見

Grok 4でもっと興味深い点は、論争になり得る話題について意見を尋ねると、回答前に時々Xで from:elonmusk としてツイートを検索することがある点だ関連リンク
SimonはGrok 4の価格は競争力がある（入力トークン100万個あたり3ドル、出力トークン100万個あたり15ドル）と言っていたが、実際にはThinkingに使われるトークンのせいで価格ははるかに高くなる。Tesla特有の複雑な価格設定方式がここでも適用されているわけだ。入出力トークンだけを見て判断すると大きなコストを払うことになりかねない。実際のコスト情報を見たいならこちらを参照
- Claudeがトークン生成量1位で、Grok 4が2位だ。"Cost to Run Artificial Analysis Intelligence Index" セクションを参照するとよい関連リンク
- 価格設定方式が独特だと思う。思考のために使うトークンが非常に多く、これを避けられないので、単純に入出力だけを考えていると予想外の金額になることがある
- Teslaは従来の内燃機関車ドライバーを基準に価格と燃料節約効果を強調していたが、実際のEVドライバーの立場ではそれほど大きく感じられず、最近では基本オプションから燃料費節約の項目を外して7,500ドルの補助だけを残している。自分で冷静に計算してみると、依然としてEVのほうがはるかに有利で、自宅で充電すればさらに大きく節約できる。私の経験では、内燃機関車のドライバーならぜひEVに乗り換えることを強く勧めたい
Claude Codeのおかげで、もともとLLMにまったくお金を使っていなかった自分が月200ドルを払うようになった。今後この金額（あるいは300ドルまで）を取れるAIは、必ずClaude Codeのように自己強化学習環境でツール使用経験が反映されたモデルである必要がある。もう、どれほど優秀なモデルでも、コードをコピーしてチャット欄に貼り付ける方式ではやっていけない
- まだLLMで実際にコーディングをしたことはない。たとえば最近、退屈かもしれないシリアライズコードを書いていて、説明だけでもLLMがコードを書いてくれそうだと思った。ところが実装してみると、ある程度高度なスキルが必要な難所があった。インターンなら問題を認識して質問しただろうが、LLMは見つけられなかった場合でも、問題状況そのものを知らせて助けを求めるレベルまで進化しているのか、それともただ変なコードを投げてくるだけなのか知りたい
- Claude CodeやGemini CLIのインターフェースはいまひとつだったが、IDEに統合されるCursorやCopilotのような自然な使用体験のほうが良いと感じる。ツール使用量を増やせるなら追加料金を喜んで払うつもりだ。今後はチャット方式ではなく、ツール統合中心がコーディングLLMの未来だと思う。すでにGeminiCLIが出てきたのも同じ文脈で、OpenAIがwindsutfとCodexに投資する理由も同じだ。ユーザーのツール使用ログでカスタムRL環境を訓練することが来年の技術的な重要テーマになりそうだ
- Claude Codeでツールを使えるよう学習されたモデルと、aiderのようにモデルに依存せずツールを使う方式の体験がどう違うのか気になる。両方使ってみた人がいるか知りたい
- 今後数週間以内にコーディング特化版のGrok 4が出るという噂を聞いた
そろそろ「このAIを4chanスタイルに変えられるか」のような新しいベンチマークが必要かもしれないと思う。ElonがGrokをこうした差別化要素で打ち出そうとしているようだ
- 実際にはこうしたベンチマークはまったく新しいものではなく、Microsoftが2016年に作ったTayがすでに同じ基準を打ち立てたことがある参考リンク
- GrokでMechaHitler問題が発生したプロンプト（指示文）をさまざまなLLMに入力し、モデルごとにどう反応するか比較実験してみると面白そうだ
Grokのプロンプトで問題になっている行は、最近Githubから削除されたのは確かだ関連リンク
- その行はGrok 3では外されたが、Grok 4では依然として存在することを確認したリンク
- 奇妙なことに、そのページは一瞬見えたあとすぐ消えてアクセスが遮断される現象を経験した。それでも重要な内容はすでに確認できた
- 実名と会社名を出してかなり過激なコメントを書いている人もいる。驚きだ
- こうした非決定論的（再現不能な）AI技術の品質保証（QA）をどうすればいいのか本当に気になる
Grok 4関連スレッドと、500件以上のコメントが爆発的についたローンチ動画もあるので参考になる Grok 4 Launch
MechaHitler論争の技術的背景が気になる人もいるが、これはGrok 4ではなくGrok 3で起きた出来事だ。トリック的なプロンプトによって、どのLLMでも起こり得る現象だ。ある時点ではMechaHitlerとGigaJewのどちらかとして自分を定義しろというプロンプトが入り、Grok 3が前者を選んだ状況だった
- Grok 3で起きたことで、Grok 4とは時期が重なっただけの別現象だ
Thinking tokensを隠す流れは、プロダクト開発の立場からするとあまり望ましくない。APIで確認できるのかも分からないし、サポートがなければ他のプラットフォームに移る可能性が高い
Grokががんの治療法を見つけたとしても、Muskと関わっている限り絶対に使いたくない
- たとえばここのような例だ
- なぜそう思うのか気にする人がいる
Grok 3がシステムプロンプトに応じて人種差別的に変わる点を問題視する意見もあるが、むしろこれはモデルが指示によく従えることを意味するので前向きに捉えている。他のモデルはシステムプロンプトに関係なく常に同じように動く傾向がある
- 相手の経歴を見るとMuskファンなのは明らかに見えるが、モデルがMechaHitlerになったり暴力的なメッセージを生成したりすることを「良い点」だと言うのには到底同意できない。こうした結果が実際に人命被害を招き得ることを真剣に考えてほしい
- Claudeもpre-fill方式でシステムプロンプトの一部に従わせることはできる。まだ程度は把握しきれていないが、拒否を迂回すること自体は可能だ。基本的に開発者の指示に従って動くようにする特性は、基盤LLMでは望ましいと思う
- これほど調整可能だということは、危険な方向（崖）に向かって走り出せるという意味でもあり得る
- 私がさらに懸念しているのは、プロンプト修正ひとつで突然親ナチ的なメッセージを大量に吐き出すレベルまで変わるのは本当に alarming だということだ

Simon WillisonによるGrok 4レビュー

Grok 4の概要

性能とベンチマーク結果

システムプロンプトと安全性を巡る論争

料金プランとサブスクリプション方針

まとめ

関連記事

1件のコメント

Hacker Newsの意見