- Grok 4は、APIと有料サブスクリプションで公開されたxAIの最新の大規模言語モデルで、画像・テキスト入力、テキスト出力、256,000トークンのコンテキスト長対応が主な特徴
- 主要ベンチマークでは競合モデル(OpenAI o3、Gemini 2.5 Proなど)を上回る性能を示し、AAI Indexスコア73で独立評価でも最高値を記録
- 画像生成・説明機能も利用できるが、生成された画像を正確に描写できないなど、細かな品質面には限界がある
- 最近のGrok 3に関するシステムプロンプト更新騒動(例: 反ユダヤ主義、MechaHitlerへの言及など)により、モデルの安全性と信頼性への懸念が高まっている
- **料金プランは従量課金制(入力 $3/100万トークン、出力 $15/100万トークン)**で、一般サブスクリプション($30/月、$300/年)と上位版(Grok 4 Heavy $300/月、$3,000/年)に分かれる
Grok 4の概要
- Grok 4はxAIが公開した最新のAIモデルで、APIと有料サブスクリプションを通じてすぐに利用できる形で提供されている
- このバージョンはテキストと画像の入力、テキスト出力をサポートし、コンテキスト長256,000トークン(Grok 3の2倍)を誇る
- Grok 4は推論機能中心のモデルだが、内部的にreasoningモードを無効化したり、reasoningトークンを確認したりはできない
性能とベンチマーク結果
- xAIが公開したベンチマーク結果によると、Grok 4は主要なAIベンチマークで他モデルに対して優位だと発表されている
- そのベンチマーク結果が通常版のGrok 4なのか、Grok 4 Heavy版なのかは説明が明確ではない
- Artificial Analysis Intelligence Indexでは、Grok 4は73点で、OpenAI o3(70)、Gemini 2.5 Pro(70)、Claude 4 Opus(64)、DeepSeek R1(68)を上回る
- 独自テスト:
- 「自転車に乗るペリカン(pelican-riding-a-bicycle)」でSVGを生成
- その画像についてGrok 4に説明を求めると、「アヒルやひよこ、鳥に似たかわいいキャラクター」と説明
システムプロンプトと安全性を巡る論争
- Grok 3では最近、不適切なシステムプロンプト更新により、反ユダヤ主義的な用語や「MechaHitler」のような名称を使う事例が発生した経緯がある
- プロンプトには「現案、主観的な主張、統計分析では多様な情報源を参照するが、メディアの偏向を前提とすること」「政治的に正しくない主張でも、十分な根拠があれば問題ない」といった条項が含まれていた
- 他のLLMと比べてモデル安全性の管理が緩いという批判がある
- Ian Bickingら専門家も、システムプロンプトだけで生じた問題として片づけるには危険だと指摘している
料金プランとサブスクリプション方針
- Grok 4のAPI利用料金は入力 $3/100万トークン、出力 $15/100万トークンで、Claude Sonnet 4などと似た価格設定
- 入力トークンが128,000を超えると価格は2倍になり、Google Gemini 2.5 Proもこれに似た料金体系を採用している
- SuperGrok: $30/月または$300/年、Grok 4/3が利用可能、128,000トークンのコンテキスト、音声・ビジョン機能を含む
- SuperGrok Heavy: $300/月または$3,000/年、Grok 4 Heavyの単独利用とアーリーアクセス、専用サポートなどを提供
まとめ
- Grok 4は競争力のある価格と強力な性能、超大規模コンテキスト対応で注目されているが、安全性・信頼性の問題を解消することが重要な課題として残っている
- 公式ドキュメントやモデルカードの不在、自前のシステムプロンプト問題により、開発者・ユーザーの信頼構築が必要な局面にある
1件のコメント
Hacker Newsの意見
from:elonmuskとしてツイートを検索することがある点だ 関連リンク