3 ポイント 投稿者 GN⁺ 2026-02-13 | 1件のコメント | WhatsAppで共有
  • リアルタイムコーディングのために設計された GPT‑5.3‑Codex の小型版で、1000トークン/秒以上の速度を提供
  • 128k コンテキストウィンドウベースの テキスト専用モデル で、即時のコード修正と反復作業に特化
  • WebSocket ベースの応答経路の導入により、応答遅延を 80% 削減トークンあたりのオーバーヘッドを 30% 削減最初のトークン出力時間を 50% 短縮
  • Cerebras との協業で開発され、Wafer Scale Engine 3 を活用した高速推論環境で動作
  • 長期自律作業とリアルタイム協業を組み合わせる デュアルモード Codex 戦略の第一段階モデル

GPT‑5.3‑Codex‑Spark 概要

  • GPT‑5.3‑Codex‑Spark は GPT‑5.3‑Codex の小型版 で、リアルタイムのコーディング作業のために設計された最初のモデル
    • 超低遅延ハードウェア上で 1000トークン/秒以上 の生成速度を達成
    • 実際のコーディング作業で即時の応答性を提供
  • Cerebras との協業を通じて開発された最初のモデルであり、OpenAI と Cerebras のパートナーシップにおける 最初のマイルストーン
  • ChatGPT Pro ユーザー向けにリサーチプレビューとして提供され、初期実験とフィードバック収集を目的とする

主な機能と性能

  • 128k コンテキストウィンドウ をサポートし、現時点では テキスト専用モデル として提供
  • SWE‑Bench ProTerminal‑Bench 2.0 ベンチマークで、GPT‑5.3‑Codex と比べて より短時間で高い性能 を示す
  • 速度重視の最適化 により、基本的な動作方式は軽量で目標志向型となっており、リクエストされない限り自動テストは実行しない
  • リアルタイム協業 が可能で、ユーザーはモデルの進行を 中断・再指示 しながら即座に結果を確認できる

遅延時間とインフラ最適化

  • モデル速度に加えて、リクエストからレスポンスまでのパイプライン全体の遅延時間 を減らすための改善が行われた
    • クライアント-サーバー間の往復オーバーヘッドを 80% 削減
    • トークンあたりのオーバーヘッドを 30% 削減最初のトークン出力時間を 50% 短縮
  • そのために WebSocket ベースの持続接続Responses API の内部最適化 が適用された
  • これらの改善は Codex‑Spark だけでなく、すべてのモデルに適用される予定

Cerebras ハードウェア統合

  • Codex‑Spark は Cerebras Wafer Scale Engine 3 上で実行され、遅延時間重視の推論レイヤー を提供
  • OpenAI は Cerebras と協力してこの経路を 既存の本番サービングスタックに統合 し、Codex 全体で 一貫した動作環境 を実現
  • GPU インフラ は依然として学習と推論の基盤として維持され、Cerebras は超低遅延ワークロード に特化して相補的な役割を担う
  • GPU と Cerebras を 単一ワークロード内で組み合わせ て最適な性能を達成可能

展開とアクセス

  • Codex‑Spark は ChatGPT Pro ユーザー向け Codex アプリ、CLI、VS Code 拡張機能 でリサーチプレビューとして提供開始
  • 専用の使用制限(rate limit) が適用され、需要に応じて調整される可能性がある
  • 一部のデザインパートナー に API アクセスが提供され、製品統合の方法に関するフィードバックを収集中
  • 今後数週間で アクセス範囲を拡大 し、実際のワークロードに基づいて統合を調整する予定

安全性と今後の方向性

  • Codex‑Spark には 既存のメインラインモデルと同等の安全性学習 が含まれ、サイバー関連評価 を通過
  • 評価の結果、サイバーセキュリティ・生物学分野で高リスク能力の基準には到達していない ことが確認された
  • Codex は、長期実行型推論と リアルタイム協業型の反復作業 という 2 つのモードを組み合わせる方向で進化中
    • 今後は マルチモーダル入力より大きなモデル長いコンテキスト などへの機能拡張を予定
  • 超高速推論は、アイデアを即座に実行可能なソフトウェアへ変換 する過程を加速し、自然なインタラクション体験 を提供する

1件のコメント

 
GN⁺ 2026-02-13
Hacker News の反応
  • HNに画像を投稿できたらいいのにと思う。WSE-3チップは本当に巨大だ
    このチップは46,255mm²のサイズに4兆個のトランジスタを搭載し、90万個のAI最適化コアで125ペタフロップスの演算性能を提供する。これはNVIDIA B200と比べてトランジスタ数は19倍、演算性能は28倍にあたる
    詳細はCerebras公式ページ画像1画像2を参照

    • 発熱がすさまじそうなので、冷却システムが重要になりそう。再生可能エネルギーで電力供給されるといい
  • 私はコーディングエージェントを使って、Webベースのスライドデッキを自動生成している。「マスタースライド」をコンポーネントとして定義し、会社のブランディング規則とアセットを適用する。そこにコンテンツとプロンプトを入れるだけで、きれいなプレゼンテーションができあがる
    本当に欲しいのは**即興モード(improv mode)**だ。発表中に聴衆の質問やその場のアイデアに応じて次のスライド候補を3つ提案してもらい、選択した後で元の流れに戻るようなものだ。
    たとえばニュース記事や論文に言及したら、自動でスクリーンショットとQRコード入りのスライドを生成し、その後また発表の流れに戻る感じだ。リアルタイム音声とコード生成が組み合わされば、発表ツールはずっと便利になると思う

    • こういう確率的プレゼンテーションは素晴らしいと思う。結果が驚くようなものになることも、笑えるものになることもありそうだ
    • 私たちはOctigenでほぼ同じものを作っている。デモやアルファ版へのアクセス権を渡せる
    • ハッカソンで似たようなものを作ったことがある。発表者のトーンと話す速度に応じてテレプロンプターの速度を調整するシステムだった。これを即興モードに拡張したら本当に面白そうだ
    • 講義準備に時間をかけすぎている教授として、こういうシステムを授業に導入してみたい
    • 実際の例を見せられるのか気になる
  • gpt-5.3-codex-sparkをCodex CLIで使ってみたが、速度はものすごく速い一方で、モデルサイズが小さい感じがある。
    自作の「bluey bench」テスト(ファイルシステムベンチマーク)で性能を測ったところ、小さいモデルほど文脈効率が落ちて、圧縮(compaction)が頻繁に発生する。
    それでも速度面では前世代よりずっと速い

    • 今後は全モデルの標準ベンチマークをbluey benchにしてほしい
    • Opus 4.6(思考機能を無効化)と比べてみたのか気になる。そのモデルもかなり速い
    • 名前は従来のCodexに似ているのに、性能はずっと低いのが不思議だ
  • Cerebrasは今でも過小評価されている会社だと思う。皿ほどの大きさのチップが実際に動作し、実運用でも他の何より速い。驚くべき技術だ

    • もうNvidiaの時代は終わった気がする。GoogleはTPUv9で推論効率を4倍に高める予定で、Cerebrasはエージェントワークロードでずっと速い。電力効率とコストの面でもGoogleが優位だ。
      電力インフラがボトルネックなので、米国では大規模発電所を短期間で建てられない。結局TPUv8以降はGoogleが市場を主導する気がする
    • 実際、このチップが「皿サイズ」なのは、ウェハ全体を1つのチップとして使っているからだ。ウェハスケール統合は数十年にわたって研究されてきた技術だ
    • 欠点は価格が高すぎること
    • それでも投資家たちはまだNvidiaに資金を投じている
    • ただしこのチップは1個あたり100万ドル以上で、ラックに1個しか入れられない。密度とメモリ容量が不足している。結局NvidiaはGroq買収に200億ドルを使ったので、Cerebrasが買収される可能性も低い
  • 私のPelicanベンチマークが、GPT-5.3-Codex-Sparkと完全版GPT-5.3-Codexの品質差を視覚的に示している
    詳しくはブログ記事を参照

    • 新しいモデルが出るたびにこういうベンチマークを楽しみにしている。複数の要素を一度に見せてくれるので便利だ。ブログも最高だ
  • コーディングエージェントを使った優先度キュー / 階層化ワークロードのオフロードという発想が興味深い。
    作業の60%が単純な編集やリファクタリングなら、低遅延・高トークン処理が重要になる。
    最近Claude向けのBatch APIプラグインが登場し、NvidiaとGoogleも推論向けのカスタムシリコンを準備している(記事

    • ただBatch APIはレイテンシがかなり長い。大量処理には向いているが、1回の往復で最大24時間かかることもある。しかもCodexやProモデルはBatch APIではサポートされていない
    • 私はClaudeがGLM 4.7 on Cerebrasに開発を外注するように使えるMCPを作った。Claudeがシステムプロンプト、出力ファイル、文脈ファイルを指定できるようにし、開発速度が大きく向上した
  • 業界標準になってまだ20分しか経っていないのに、まだGPT-5.3-Codexを使っている人がいるなんて驚きだ

    • 私もタイトルを見て「GPTの発表ならGoogleかAnthropicも何か出してるはず」と思ったが、やはりGeminiがあった
  • OpenAIがOpenrouterでAurora Alphaという名前でこれをテストしている可能性がある。
    Aiderで小さなプロジェクトを動かしてみたところ、1万入力トークンと1000出力トークンを毎秒500トークンの速度で処理した

  • 「最新モデルは数時間から数日間にわたって自律的に作業を実行できる」という文言を見たが、まだ実際に有用な成果物は見ていない

    • どれくらい試したのか聞きたい。Opus 4.6GPT-5.3は長時間作業で明らかに改善している。たとえばこのプロジェクトデモページは、たった1回のプロンプトで完成した(プロンプトへのリンク
    • 私はよくCodexを一晩動かしてバグを探させている。デバッグ自動化には本当に理想的だ
    • モデルが止まらずにトークンを燃やし続ける能力が印象的だ
    • 「うちのモデルは遅すぎて作業に数時間かかります」という文句が笑える。自慢には聞こえない
    • 数日前、Codexが私の会社のサイトのVite 8アップグレードを3時間以上ひとりで処理した。今では実際の本番環境に反映されている
  • ついに大手3社のうち1社がCerebrasを使うのを目にした。この日を長く待っていた

    • 最初は検証されていない技術だから敬遠していたが、今では速度面で大きな飛躍を遂げたようだ