- リアルタイムコーディングのために設計された GPT‑5.3‑Codex の小型版で、1000トークン/秒以上の速度を提供
- 128k コンテキストウィンドウベースの テキスト専用モデル で、即時のコード修正と反復作業に特化
- WebSocket ベースの応答経路の導入により、応答遅延を 80% 削減、トークンあたりのオーバーヘッドを 30% 削減、最初のトークン出力時間を 50% 短縮
- Cerebras との協業で開発され、Wafer Scale Engine 3 を活用した高速推論環境で動作
- 長期自律作業とリアルタイム協業を組み合わせる デュアルモード Codex 戦略の第一段階モデル
GPT‑5.3‑Codex‑Spark 概要
- GPT‑5.3‑Codex‑Spark は GPT‑5.3‑Codex の小型版 で、リアルタイムのコーディング作業のために設計された最初のモデル
- 超低遅延ハードウェア上で 1000トークン/秒以上 の生成速度を達成
- 実際のコーディング作業で即時の応答性を提供
- Cerebras との協業を通じて開発された最初のモデルであり、OpenAI と Cerebras のパートナーシップにおける 最初のマイルストーン
- ChatGPT Pro ユーザー向けにリサーチプレビューとして提供され、初期実験とフィードバック収集を目的とする
主な機能と性能
- 128k コンテキストウィンドウ をサポートし、現時点では テキスト専用モデル として提供
- SWE‑Bench Pro と Terminal‑Bench 2.0 ベンチマークで、GPT‑5.3‑Codex と比べて より短時間で高い性能 を示す
- 速度重視の最適化 により、基本的な動作方式は軽量で目標志向型となっており、リクエストされない限り自動テストは実行しない
- リアルタイム協業 が可能で、ユーザーはモデルの進行を 中断・再指示 しながら即座に結果を確認できる
遅延時間とインフラ最適化
- モデル速度に加えて、リクエストからレスポンスまでのパイプライン全体の遅延時間 を減らすための改善が行われた
- クライアント-サーバー間の往復オーバーヘッドを 80% 削減
- トークンあたりのオーバーヘッドを 30% 削減、最初のトークン出力時間を 50% 短縮
- そのために WebSocket ベースの持続接続 と Responses API の内部最適化 が適用された
- これらの改善は Codex‑Spark だけでなく、すべてのモデルに適用される予定
Cerebras ハードウェア統合
- Codex‑Spark は Cerebras Wafer Scale Engine 3 上で実行され、遅延時間重視の推論レイヤー を提供
- OpenAI は Cerebras と協力してこの経路を 既存の本番サービングスタックに統合 し、Codex 全体で 一貫した動作環境 を実現
- GPU インフラ は依然として学習と推論の基盤として維持され、Cerebras は超低遅延ワークロード に特化して相補的な役割を担う
- GPU と Cerebras を 単一ワークロード内で組み合わせ て最適な性能を達成可能
展開とアクセス
- Codex‑Spark は ChatGPT Pro ユーザー向け Codex アプリ、CLI、VS Code 拡張機能 でリサーチプレビューとして提供開始
- 専用の使用制限(rate limit) が適用され、需要に応じて調整される可能性がある
- 一部のデザインパートナー に API アクセスが提供され、製品統合の方法に関するフィードバックを収集中
- 今後数週間で アクセス範囲を拡大 し、実際のワークロードに基づいて統合を調整する予定
安全性と今後の方向性
- Codex‑Spark には 既存のメインラインモデルと同等の安全性学習 が含まれ、サイバー関連評価 を通過
- 評価の結果、サイバーセキュリティ・生物学分野で高リスク能力の基準には到達していない ことが確認された
- Codex は、長期実行型推論と リアルタイム協業型の反復作業 という 2 つのモードを組み合わせる方向で進化中
- 今後は マルチモーダル入力、より大きなモデル、長いコンテキスト などへの機能拡張を予定
- 超高速推論は、アイデアを即座に実行可能なソフトウェアへ変換 する過程を加速し、自然なインタラクション体験 を提供する
1件のコメント
Hacker News の反応
HNに画像を投稿できたらいいのにと思う。WSE-3チップは本当に巨大だ
このチップは46,255mm²のサイズに4兆個のトランジスタを搭載し、90万個のAI最適化コアで125ペタフロップスの演算性能を提供する。これはNVIDIA B200と比べてトランジスタ数は19倍、演算性能は28倍にあたる
詳細はCerebras公式ページと画像1、画像2を参照
私はコーディングエージェントを使って、Webベースのスライドデッキを自動生成している。「マスタースライド」をコンポーネントとして定義し、会社のブランディング規則とアセットを適用する。そこにコンテンツとプロンプトを入れるだけで、きれいなプレゼンテーションができあがる
本当に欲しいのは**即興モード(improv mode)**だ。発表中に聴衆の質問やその場のアイデアに応じて次のスライド候補を3つ提案してもらい、選択した後で元の流れに戻るようなものだ。
たとえばニュース記事や論文に言及したら、自動でスクリーンショットとQRコード入りのスライドを生成し、その後また発表の流れに戻る感じだ。リアルタイム音声とコード生成が組み合わされば、発表ツールはずっと便利になると思う
gpt-5.3-codex-sparkをCodex CLIで使ってみたが、速度はものすごく速い一方で、モデルサイズが小さい感じがある。
自作の「bluey bench」テスト(ファイルシステムベンチマーク)で性能を測ったところ、小さいモデルほど文脈効率が落ちて、圧縮(compaction)が頻繁に発生する。
それでも速度面では前世代よりずっと速い
Cerebrasは今でも過小評価されている会社だと思う。皿ほどの大きさのチップが実際に動作し、実運用でも他の何より速い。驚くべき技術だ
電力インフラがボトルネックなので、米国では大規模発電所を短期間で建てられない。結局TPUv8以降はGoogleが市場を主導する気がする
私のPelicanベンチマークが、GPT-5.3-Codex-Sparkと完全版GPT-5.3-Codexの品質差を視覚的に示している
詳しくはブログ記事を参照
コーディングエージェントを使った優先度キュー / 階層化ワークロードのオフロードという発想が興味深い。
作業の60%が単純な編集やリファクタリングなら、低遅延・高トークン処理が重要になる。
最近Claude向けのBatch APIプラグインが登場し、NvidiaとGoogleも推論向けのカスタムシリコンを準備している(記事)
業界標準になってまだ20分しか経っていないのに、まだGPT-5.3-Codexを使っている人がいるなんて驚きだ
OpenAIがOpenrouterでAurora Alphaという名前でこれをテストしている可能性がある。
Aiderで小さなプロジェクトを動かしてみたところ、1万入力トークンと1000出力トークンを毎秒500トークンの速度で処理した
「最新モデルは数時間から数日間にわたって自律的に作業を実行できる」という文言を見たが、まだ実際に有用な成果物は見ていない
ついに大手3社のうち1社がCerebrasを使うのを目にした。この日を長く待っていた