4 ポイント 投稿者 GN⁺ 2025-09-21 | 2件のコメント | WhatsAppで共有
  • xAIが発表したGrok 4 Fastは、既存のGrok 4の学習成果を基盤に、コスト効率と速度を最大化した次世代推論モデル
  • このモデルは2MトークンのコンテキストウィンドウWebおよびX検索機能、そしてreasoning / non-reasoning統合アーキテクチャを備え、リアルタイム活用に適している
  • ベンチマークではGrok 4と同等の性能を示しながら、平均40%少ないトークンを使用し、同じ性能をはるかに低いコストで達成できる
  • また、ツール使用強化学習を通じてコード実行、Web探索などで高い性能を発揮し、LMArena Search Arenaで1位を記録

コスト効率的な知能の進化

  • Grok 4 FastはGrok 3 Miniより優れた性能を示しながら、トークンコストを大幅に削減
    • 平均的にGrok 4比で**40%**少ない「Thinking Tokens」の使用で同等の性能を達成
    • ベンチマークスコア例(pass@1):
      • Grok 4 Fast: 85.7%, 92.0%, 93.3%, 20.0%, 80.0%
      • 競合モデル(GPT-5など)と比較して同等または優れた結果
  • GPQA、AIME、HMMT、LiveCodeBenchなど、さまざまな推論ベンチマークでGrok 4に近い成果を示す
  • Grok 4 Fastはトークン効率を40%改善するとともに、トークン単価も大幅に引き下げ
  • 同一性能達成時の価格はGrok 4比で98%削減され、公開モデルの中で「最高の価格対知能比(SOTA Price-to-Intelligence Ratio)」を記録
    • 独立機関であるArtificial Analysis Intelligence Indexの外部評価でも優秀な成績が検証された

ネイティブなツール活用とSOTA検索

  • **ツール使用強化学習(RL)**で訓練されており、必要に応じてコード実行やWebブラウジングを自動で行える
  • WebとXをリアルタイムに探索し、マルチホップ検索やメディア(画像、動画)まで処理するエージェント型検索能力を備える
  • BrowseComp、SimpleQA、X Bench Deepsearch(zh)など各種ベンチマークでGrok 4を上回る性能を達成

一般ドメインのポストトレーニング成果

  • LMArenaのSearch ArenaでGrok 4 Fast(menlo)はElo 1163で1位を記録し、競合モデルに17ポイント差をつけた
  • Text Arenaではgrok-4-fast(コードネーム tahoe)が8位で、同クラスの他モデル(18位以下)と比べて圧倒的に優秀
  • 実際の検索およびテキスト作業で、大規模モデル以上の効率性を示す

ReasoningとNon-Reasoningの統合モデル

  • 従来は別モデルが必要だったreasoning / non-reasoningモードを単一アーキテクチャに統合
    • システムプロンプトだけでreasoning(深い思考)およびnon-reasoning(高速応答)モードを切り替え可能
    • エンドツーエンドの遅延時間とトークンコストの削減により、リアルタイムアプリケーションに適している
  • xAI APIでは開発者が速度と深さを細かく調整できる

提供開始と価格ポリシー

  • Grok 4 Fastはすぐに利用可能で、OpenRouterとVercel AI Gatewayでは期間限定で無料提供される
  • xAI APIでもgrok-4-fast-reasoninggrok-4-fast-non-reasoningの2バージョンで提供され、2Mトークンのコンテキストウィンドウをサポート
  • 価格は入力トークン**$0.20/1M**、出力トークン**$0.50/1M**からで、128kトークン超過時は2倍料金が適用される
  • キャッシュ入力トークンは**$0.05/1M**で提供され、コスト削減に役立つ

今後の計画

  • ユーザーフィードバックを反映し、継続的にモデルを改善する予定
  • マルチモーダル機能エージェント的特性の強化が次回アップデートの中核目標
  • モデルカードと追加の詳細情報はGrok 4 Fastモデルカード (PDF)で確認できる

2件のコメント

 
kuber 2025-09-21

gpt-oss より高くて遅いようですが、なぜこんなに多くの人が使っているのか気になります..

 
GN⁺ 2025-09-21
Hacker Newsの意見
  • Muskの製品は、どれだけお金をもらっても使いたくない。特に情報をフィルタリング・変換・統合する役割のものならなおさらそう思う。役に立つ可能性はあっても信頼できないし、Muskにさらに富を積ませたくもない
    • Musk本人に悪感情がなくても、Grokの動作に直接介入して自分のイデオロギーに合う結果を出させているのを何度も見てきた。こういうやり方ならその製品は使えないと思う。Muskの考えを共有する人もいるだろうが、AI製品の価値は多様なデータとアルゴリズムを使って答えを導き出すことにある。個人の意見を再現するだけでは意味がないと思う
    • Grokが回答を出す前にTwitterでMuskの意見を検索するという話を聞いたが、これがすべてのGrokバージョンなのか、それともTwitter埋め込み版だけなのか気になる
    • 代替はいくらでもあるので、Grokを使う理由はまったくないと思う
    • MuskがKirk暗殺関連でFox Newsのプロパガンダが出てこないとしてGrokを直接いじった事例がある 事例1。そしてこうしたことは何度も起きている NYT記事。Grokはプロパガンダ論争のある技術で、まるで普通の技術サービスであるかのように議論すること自体おかしい
  • モデル名が"Fast"なのにトークン処理速度を公開しないのはなぜなのか気になる。速度という意味ではなく別のことを指すのか、それとも変動が激しいのか
    • 実質的には「grok 4 mini」に過ぎないと思う。「mini」だと人があまり使わないので「fast」と名付けたのではないか。そのほうが選ぶ理由が生まれるから
    • OpenRouter基準では現在1秒あたり約160トークン程度 出典
    • 「トークン効率」に焦点を当てて高速だと位置付けているようだ。少ないトークンでより速く結果を出すという意味合いだろう
  • Grok 4がNYT Connections Extended Leaderboardの上位にいる リンク
    • 最近OpenRouterでフィードバックを受けていた Sonoma sky Alpha がこのモデルかもしれないと思った。無料だったのでかなり使ってみたが、既存の grok 4 よりいまひとつだったので違うかもしれないという意見
  • grok-code-fast-1 モデルを最近よく使っているが、今回の新製品では言及がなくて残念。もしかするともっと良いバージョンではないかと期待している。grok-code-fast-1 は Gemini 2.5 Pro に少し劣るとしても、反復速度では最高だ
    • やや単純なモデルではあるが、自分の使い方では somnet より良かった経験がある
  • より速いのに、より遅いバージョンより複数のベンチマークで性能が高いというのが理解できない。単にベンチマーク試験ばかり学習しただけなのか気になる
    • すべてのベンチマークで優れているわけではない。Grok 4 Fast は GPQA Diamond や HLE など大量の事実ベース領域では Grok 4 より弱く、大きい(=遅い)モデルのほうがこうした領域では有利だ。一方で推論やツール利用が重視されるベンチマークでは、トークン変換能力が中心になるため、小さくて速いモデルでも競争力がある。おそらく学習データ自体を特定タスク寄りに調整したのだろう。実際、そうしたベンチマークを選んで宣伝しているように見える。逆に事実記憶ベンチマークだけを抜き出して性能の低さを強調する「逆宣伝資料」も作れると思う
    • 技術的には、さまざまな構造変更やより多くのデータ、RLなど何を使ったのかが異なる可能性がある。最近はRL活用において公開モデルと比べて大きく先行している傾向がある
    • 実際には名前が似ているだけの別モデルだ。Grok 4 Fast が Grok 4 の高速版という関係ではなく、gpt-4 と gpt-4o の関係のように完全に別物だ
    • Grok 4 Fast は、Grok 4 モデルのうち実運用環境ではほとんど使われない部分を削って、より軽量で集中した形にしたバージョンである可能性が高い。だから実際の論理構造は同じでも、より特定目的に集中して効率を高めた結果なのだろう
  • 最近の大規模モデルは、似たような規模で似たようなデータで学習している。違うのは価格政策くらいだ……grok の特徴はフィルターやガードレールを外すことのようだ。そしてベンチマーク自体にも簡単に操作できる flawed な部分が多い。関連業界の人たちの間では周知の話だ
  • 価格に対するベンチマーク性能は良さそうに見える。実際のユーザーテストではどうなのか気になる
    • もしこれが以前 OpenRouter でプレビュー提供されていた sonoma-dusk なら、かなり実用的だった。コードのリバースエンジニアリング課題で試したが、速度も性能も gpt5-mini と同等かそれ以上だった。11万〜13万トークンまではよく耐え、それ以上になると条件不十分な状況でもひとまず完成を主張する傾向があった(例: 400個中 xx 個のテストに合格、残りは後で対応可能といった具合)
  • みんな速くて正確なモデルを求めているが、本当に「正確さ」まで実現できるモデルなのか気になる。とても正確なら数秒余分に待ってもいい
    • これを確実に達成する方法はツールを使うことだけだ
  • 大規模モデル比較表 参考リンク
  • 個人的にはカスタムフロントエンドを使っているので、Qwen3 coder と違って grok4 fast には無料APIテストがない点が残念。提携しているツールも自分が普段使うものではない