Grok Code Fast 1

(x.ai)

7 ポイント投稿者 GN⁺ 2025-08-30 | 1件のコメント | WhatsAppで共有

xAIが公開したgrok-code-fast-1は、開発者向けの超高速AIコーディングモデルで、高速な応答性とIDEフレンドリーな機能を備えている
このモデルはプログラミングデータセットを中心に事前学習されており、実ユーザー評価を通じてgrep、ターミナル、ファイル編集などのツール活用に習熟するよう設計されている
性能面では毎秒190トークンの生成速度、SWE-Bench-Verifiedで70.8%のスコアを記録し、TypeScript、Python、Java、Rust、C++、Goなど多くの言語に強みを持つ
価格は入力100万トークンあたり$0.20、出力$1.50、キャッシュ入力$0.02に設定されており、一部のパートナープラットフォーム（GitHub Copilot、Cursorなど）では期間限定で無料提供される
まもなくマルチモーダル入力、並列ツール呼び出し、拡張コンテキストをサポートする派生モデルも公開予定

概要

xAIのgrok-code-fast-1は、反復的な思考とツール使用が頻繁に発生する実際の開発環境での速度低下の問題を解決するために開発された超高速AIコーディングモデル
実務エンジニアのフィードバックをもとに、迅速で機敏かつ実戦業務に適したモデルアーキテクチャとしてゼロから新たに構築された
推論およびコンピューティングエンジニアリングチームは、圧倒的に高速なサービス提供技術（サービング）に多数の革新的手法を導入した
- ユーザーは思考の流れを読み終える前に、すでに複数のツール呼び出しが行われている体験を実感できる
プロンプトキャッシュの最適化により、パートナー環境で90%以上のキャッシュヒット率を達成

設計とデータセット

プログラミング中心の大規模な事前学習データを基盤に学習環境を構築
実際のプルリクエストおよびコード作成データで高品質な事後学習を実施
複数のローンチパートナーと緊密に協力しながら、モデルのエージェント型（Agentic）プラットフォーム内での挙動を継続的に改善している

主な特徴と対応環境

grok-code-fast-1はgrep、ターミナル、ファイル編集など一般的な開発ツールを確実に使いこなす
ユーザーはIDEなど主要な開発環境ですぐに活用できる

プログラミング性能

ソフトウェア開発スタック全体をサポートする
TypeScript、Python、Java、Rust、C++、Goなどで卓越した実用性を示す
最小限の監督でもゼロからイチのプロジェクト生成、コードベースに関する質疑応答、精密なバグ修正など多様なプログラミング業務を迅速かつ正確に処理する

Grok Code Fast 1は現行モデルの中でも最速クラスの応答性を提供する
小さな作業単位に分割して使うと、反復的で迅速なワークフロー構築に非常に有利
実例として、Cursor環境でわずか1日でBattle Simulatorのプロトタイプを完成させた
大きな機能を計画し、段階ごとに細分化して反復実行するのが効率的

価格ポリシー

入力トークン100万個あたり$0.20
出力トークン100万個あたり$1.50
キャッシュ済み入力トークン100万個あたり$0.02
優れた性能と経済的な価格により、日常的なプログラミング課題を迅速かつ効率的に処理できる

モデル性能と評価

トークン処理速度（Tokens Per Second, TPS）: 190で業界最高水準
他モデル（Gemini 2.5 Pro、GPT-5、Claude Sonnet 4、Qwen3-Coder、Grok 4）との比較でも、価格と処理速度の両面で高い競争力を示す
さまざまな公開ベンチマークと開発者による実地テストを並行して実施
- SWE-Bench-Verifiedのサブセットで70.8%を達成
実務エンジニアとの定期的な人手評価と自動テストを組み合わせ、モデルの実用性と満足度を最大化している

今後の計画と活用案内

公式APIおよび主要パートナー経由で提供され、無料体験も期間限定で提供中
- GitHub Copilot、Cursor、Cline、Roo Code、Kilo Code、opencode、Windsurfなど
継続的なアップデートと迅速な改善サイクルを約束している
マルチモーダル入力、並列ツール呼び出し、拡張コンテキスト対応などの新機能を含む新たな派生モデルも訓練中
プロンプトエンジニアリングガイドも別途提供されている
モデルカードおよびフィードバックチャネル（Discordなど）で意見を共有できる

1件のコメント

GN⁺ 2025-08-30

Hacker Newsの意見

昨日Clineで試してみたが、速度が速く、agentic flowによく合っていて、コード品質もかなり良かった。なぜこのスレッドが否定的なのか理解できない（タイピング中にflagも食らった）。このモデルは悪くないと思う。少なくともgpt5-mini級、あるいはそれ以上に感じる。ここ数日gpt5-miniをメインで使っていたが、予算にも収まりつつ、やるべきことはきちんとこなしてくれた。
- 注目した点:
  - 速度が速い（EUタイムゾーン基準でテスト）
  - agenticなやり方を面白く扱っていて、ファイル全体を一度に編集するより、何回かに分けて少しずつ直していく
  - HTMLパース（bs4）関連の機能で11万トークンほど使ったが、問題なくタスクを完了し、高コンテキストでも特に支障はなかった
  - 最初の試行に失敗すると、新しいファイルを別に作ってmock/testしてから、成功したらメインのモジュールファイルを修正する。GPT5-miniは作業中のファイル編集でしばしば混乱して失敗していた
- 全体として悪くない。価格に対してデイリードライバーとしても使える。Opus+gpt5 highをplannerにして、このモデルをimplementerとして回すのも想像できる。速度が速いので、並列のpass@xスタイル設定も面白そうだ。
- すべてのレイヤーにさまざまな選択肢があるのは良いことだ。いろいろな事業者が競争すれば、お互いに緊張感が生まれ、価格低下の効果もある。gpt5-miniが2$/MTok、このモデルが1.5$/MTok程度なので、ほとんど「無料」のような感覚。この否定的な空気は理解できない
- Qwen3-Coder-480B（Cerebrasでホスト）はOpenRouter経由で入出力込み2$/Mtok
  - OpenRouterでは、Cerebrasが毎秒2000トークン以上を提供すると主張しており、これは10倍も速い
  - 独立ベンチマークではQwen3-Coder-480Bのほうが優れているように見える
- context lengthの半分くらい使えれば性能が良いと見なすべきなのだろうか？ qwen3-coderは65k/256kあたりで混乱しているように感じるし、grokより50%高い
- レビューは興味深く読んだ。claude codeと比べるとどうなのか気になる
- 私もだいたい同じ意見だ。最近このモデルを使っているが、かなり良くて速度も非常に速い。
  - HNコメントはElon Muskに否定的で、LLMに対してもバイアスのかかった反応が見られるので、正当に評価されていない気がする
興味深いのは、このモデルが強調しているベンチマークがトークン出力速度だという点で、しかも名前にまで「fast」を付けていることだ。
- 一般的にソフトウェアエンジニアなら、速度よりトークン品質のほうが重要だと考えるのではないかと思う
- どれだけ速いかが重要だ
  - LLMの結果はどうせ時々間違うのなら、素早く何度もプロンプトを試して反復的に磨いていけるほうが価値があるかもしれない
  - 極端な話、プロジェクト全体をミリ秒単位で処理できるなら、成功率が同じでもそちらのほうがはるかに価値がある
  - こうした速度は、ユーザー体験だけでなく、ツールの使い方そのものを変えてしまうかもしれない
  - 3つの異なる提案をその場でもらうことも可能になる
  - 個人的にはXに関わりたくないので、Grok自体を使うつもりはない。これは個人的な好みだ
- xAIが作り出したメトリクスの中では最悪というほどではない
  - 関連リンク
- Cerebrasの無料API（Qwen Coder 480b、gpt-oss-120bを提供、提携ではない）を使ってみたが、毎秒3000トークンくらい出て本当に速い
  - だからモデル速度はいつもチェックしている
  - ただしCerebrasクラウドには1日7000万トークンの制限があり、この上限はすぐ超えるというフィードバックもあるので、日常的な開発には制約が大きい
- 用途次第だ
  - 単純な関数補完（文字列処理、関数定義など）では、速度のほうが重要になる
  - 単に分岐点を考えたり悩みながら進めるコーディングでは品質が重要だが、自分が何をしているのかはっきり分かっているなら、多少賢さが劣っても速いモデルのほうが作業フローの助けになる
  - 遅いモデルはPRレビューのようにコードを細かく確認しなければならず、作業フロー自体がかなり変わる
- 速度は非常に重要だ
  - もちろん品質がひどければ意味はないが、Claude Sonnet 4並みに良くて速いモデルなら、agenticコーディングではゲームチェンジャーになり得る
  - 今はプロンプトを送って30秒から数分待たなければならないので、実質的に試行錯誤するのが難しい
  - もし数秒で終わるなら、ずっと実験的で反復的な作業が可能になるはずだ
  - フロントエンドコードのようにUIを何度も変える必要があるときには特に有用だ
HNではAIコーディングアシスタントに何を使っているのか気になる。VSCodeプラグインのおすすめなど、実運用のコツを聞いてみたい
Grok-4のコード性能が悪いと評判だったときに出てきた「コーディング」版が、このモデルなのか気になる。
- ベンチマークで弱いなら、より水増ししやすい項目である速度を前面に出してきたように見える
- 検索してみると、Redditで明らかなスパムアカウントがこのモデルを絶賛する投稿をしていたくらいしか出てこない
- そのアカウントへのリンク
- Grok 3ベースのような気がする。Grok 3はものすごく速く、プログラミング特化だった
「SWE-Bench-Verified」全体基準でgrok-code-fast-1は社内ベンチマークでは70.8%らしいが、このベンチマークツール自体を見てみたい。
- サードパーティーレポートでは57.6%程度だ
- 関連リンク
  - 細かいことかもしれないが、サイトを開いてすぐ日付表記がめちゃくちゃなのに驚いた（日/月/年の順序が入り乱れている）
  - 混乱を招くだけでなく、ソートも正しく動いていない
  - 日付カラムで並べ替えると、まったく意味不明な順序になる（中間項目基準で並べている）
  - こういう基本的なことにも気を配っていないなら、コードも雑なのではないかと疑ってしまう
  - [一部の国では今でもこういう表記法を使っているが、大半は標準に移行している]
  - それでも他モデルと比べると、成績自体は良く見える
    - 比較リンク
Grok 4の基本版でもかなり良い結果を見たことがある。
- 問題は説明がほとんどなく、ただコードを差し替える傾向があることだが、結果そのものは悪くなかった
- 個人的には、より速い版よりも、変更提案についてもう少し多くのフィードバックや説明が欲しかった
- 最近はGPT-5のほうがSonnet 4より有用だと感じた
  - さまざまなアーキテクチャの選択肢を尋ねたとき、とても良い答えをくれ、問題解決のプロセスを段階的に案内してくれるのが気に入っている
  - 「ワンショット」で一度にすべてのコードを書き換えるより、実際に自分の望む方向へ合わせていくこの過程のほうが良い
  - Opus 4.1やSonnetシリーズは、ワンショット問題解決の評価ではあまり正確ではなく、本当のアシスタントとしての役割こそ重要な評価基準だと思う
  - gpt-5も、自分が望まない方向にこだわり始めると、いくら対話しても同じ動作ばかり繰り返す
    - そういう点で、Claudeのようなモデルの「はい、その通りです」的な反応を求める人もいる
    - 開発経験のレベルによってモデルに求めるものは違うだろうが、私は最終決定権が自分にあることが重要だ
  - Sonnet 4はアーキテクチャ設計や深い分析ではGPT-5に劣るかもしれないが、詳細な計画がすでにある状態で、ひたすらコード量をこなす作業はSonnet 4のほうが得意だ
数日間Grokをテストしてみたが、むしろ退化しているように感じる。
- 自分のコードの一部をランダムに削除されるという経験を、久しぶりにした
- 上位のコーディングモデルは最近かなり信頼できるようになってきたが、Grokはまだその段階ではない感じだ
- いくら速くて無料でも、自分のコードを安心して任せられないなら、ツールとしては使えない
  - Kilo CodeでGrok Code Fast 1を無料体験してみたが、結果は非常に悪かった
    - GPT 5 Miniより信頼性も低く、皮肉なことに速度も遅かった
  - Full Self Coding?
  - どのプラットフォーム／言語を使っているのか気になる
    - その点に触れていないレビューは評価が両極端で混乱する
    - 言語ごとの差は大きく、TSのWeb開発ではいつも結果が良くなりがちだ
  - コードの一部が削除されるとしても、本当に問題なのか？バージョン管理があるだろう？
とんでもない妙な振る舞いをものすごく速くやる。それは良いことではない。
- CRUDエンドポイントやi8nファイルなど、単純で具体的な作業には向いているだろうが、それ以外は微妙だ
  - 私はまさにそういう仕事にこのモデルを使っている
    - 「単純で面倒な雑用」を片付けるモデルとしてちょうどいい
    - 何でも賢いモデルが必要なわけではなく、誰もやりたがらない仕事に使って素早く大量に処理できる
    - ただし、もう少し具体的に説明しないと結果は変な方向へ飛んでいく
    - でも明確に例まで示せば、言われたことはきちんとやってくれる
  - Justfileを改善してほしいと頼んだら完全におかしくなって、全部壊し、無限ループに陥った
    - Kilo Codeで使った。経験上、人によってかなり違うかもしれない
「sonic」モデルのステルス時期でも速度は速かったが、品質は必要以上に正確ではなかった。
- テストコードを作って繰り返し実行はしていたが、肝心の意図した動作は検証せず、mockの呼び出しだけを確認していた
- 実際の利用パターンまで気を配れない限界がある
  - こういうケースではboilerplate生成には強そうに見える
私はすごいと思った。
- リファクタリング関連の質問に対して複数のツール呼び出しでコードを素早く読み、論理的に分析して、バグを2つ見つけたと教えてくれた
- もちろん、その2つともバグではなかった
- それでも「すごそう」には見えた

Grok Code Fast 1

概要

設計とデータセット

主な特徴と対応環境

プログラミング性能

価格ポリシー

モデル性能と評価

今後の計画と活用案内

関連記事

1件のコメント

Hacker Newsの意見