3 ポイント 投稿者 GN⁺ 6 시간 전 | 1件のコメント | WhatsAppで共有
  • OpenAIがGPT‑5.6シリーズを限定プレビューとして公開し、フラッグシップのSol、日常業務向けのTerra、低コストのLunaをあわせて発表
  • Solはコーディング・生物学・サイバーセキュリティでエージェント能力を強化し、max reasoning effortとultraモードによって、より深い推論とサブエージェント活用を支援
  • サイバーセキュリティ性能はExploitBenchとExploitGymで改善したが、Chromium・Firefoxの評価条件では機能的なfull-chain exploitを自律生成できず、Cyber Criticalのしきい値は超えなかった
  • プレビューはAPIとCodexで一部の信頼できるパートナーや組織に先行提供され、米国政府の要請に基づく制限手続きを経て、より広い公開を準備中
  • 価格は100万トークンあたりSolが入力$5 / 出力$30、Terraが入力$2.50 / 出力$15、Lunaが入力$1 / 出力$6で、キャッシュ書き込みは1.25倍、キャッシュ読み取りは90%割引

GPT‑5.6シリーズのプレビュー範囲

  • OpenAIは限定プレビューとしてGPT‑5.6製品群を先行公開
    • Sol: フラッグシップモデル
    • Terra: 日常業務向けのバランス型モデル
    • Luna: 高速で低コストなモデル
  • TerraはGPT‑5.5と競争力のある性能を提供しつつ、価格は2倍安い
  • LunaはOpenAIで最も低コストながら高い能力を提供
  • GPT‑5.6 Solは、OpenAIがこれまで構築してきた中で最も堅牢な安全スタックとともに提供される
    • 高リスク活動
    • 機微なサイバー関連リクエスト
    • 反復的な不正利用
    • 実際の攻撃に対する弱点探索と圧力テスト

限定公開と政府との協議

  • OpenAIは今後数週間以内にGPT‑5.6 Sol、Terra、Lunaを一般提供する計画
  • 米国政府との継続的な協議の中で、リリース前の計画とモデル能力を共有
  • 政府の要請に基づき、参加事実が政府に共有される少数の信頼できるパートナーを対象に、まず限定プレビューを開始
  • OpenAIは、このような政府主導のアクセス手続きが長期的なデフォルトになるべきではないと見ている
    • ユーザー、開発者、企業、サイバー防御者、グローバルパートナーが必要なツールにアクセスできなくなる可能性があるため
  • 今回の短期的な手続きは、数週間以内のより広い公開に向けた移行経路
    • 政権とサイバー Executive Order フレームワーク、および今後のモデル公開に向けた再利用可能な手続きを整備する間に適用される

モデル能力と評価

  • GPT‑5.6 SolはOpenAIで最も強力なモデルとして紹介されている
  • コーディング、生物学、サイバーセキュリティ評価で向上したエージェント能力を示す
  • 追加の安全性と準備状況の評価は GPT‑5.6 Preview system card に含まれる
  • より広く公開する際には、拡張された評価結果のセットを共有する予定
  • 推論モード

    • GPT‑5.6では、Solがより長く深く推論できるようにする**max reasoning effort**が導入される
    • 新しい**ultraモード**は、単一エージェントの能力を超えて、サブエージェントを活用し複雑な作業を加速する
  • コーディングと生物学

    • GPT‑5.6 Solは、コマンドラインワークフローを評価するTerminal‑Bench 2.1で新たな最高水準の性能を記録
    • このベンチマークは、計画、反復、ツール連携を必要とするコマンドライン作業をテストする
    • GeneBench v1では、GPT‑5.5より強い結果を出しながら、使用トークン数は少ない
    • GeneBench v1は、長距離のゲノミクスおよび定量生物学分析を評価する
  • サイバーセキュリティ

    • GPT‑5.6 SolはOpenAIのサイバーセキュリティ作業向けモデルの中で最も高い能力を持つ
    • 脆弱性調査やエクスプロイトを含む長期的なセキュリティ作業において、性能-効率フロンティアを押し広げる
    • ExploitBenchでは、Mythos Previewと競争力のある結果を出しつつ、出力トークンは約3分の1しか使用しない
    • ExploitGym では、Sol、Terra、Lunaのすべてが、推論量が増えるほどサイバー能力で大きな改善を示す
    • ExploitGymは、UC Berkeleyの研究者がOpenAIおよび他のフロンティアラボと協力して作成したベンチマーク

サイバー能力と安全装置

  • GPT‑5.6 Sol、Terra、Lunaは、それぞれのモデル能力に合わせたOpenAIの最も堅牢な安全装置とともに開発されている
  • モデル能力が高まるほど、現実の敵対的圧力の下でも安全装置が機能し続けるよう設計
  • 合法的な防御作業へのアクセスは維持したいとしている
    • コードレビュー
    • 脆弱性調査
    • パッチ開発
    • デバッグ
    • セキュリティ教育
    • 防御的テスト
  • 目標は、禁止された攻撃的活動をより困難・不確実・検知可能にしつつ、有益な利用を不必要に制限しないこと
  • OpenAIの評価では、合法的な防御作業には大きな利益があり、禁止された攻撃的利用は意味のある形で制約されている
  • Cyber Critical しきい値

    • GPT‑5.6 Solは Preparedness Framework の基準でCyber Criticalしきい値を超えていない
    • ChromiumとFirefoxに関する評価では、バグとexploit primitiveを特定した
    • テスト条件では、機能的なfull-chain exploitを自律的に作成できなかった
    • ベンチマークのしきい値は、モデルの利用方法や他ツールとの組み合わせをすべて捉えられるわけではない
    • この不確実性と全体的な能力向上を踏まえ、OpenAIはより強い安全装置と段階的リリースを併用する

多層安全スタック

  • 意図的または適応的な不正利用は、単一の安全装置だけでは防ぎにくい
  • GPT‑5.6プレビュー全体には、モデルごとに構成の異なる多層安全装置が適用される
    • モデルに学習された保護
    • 生成中のリアルタイム検査
    • アカウントレベルのシグナル
    • 差別的アクセス
    • モニタリング
    • 執行
    • 継続的テスト
  • モデルレベルの拒否とリアルタイム検査

    • GPT‑5.6は、ユーザーが意図を隠したりjailbreakを試みたりしても、禁止されたサイバー支援を拒否するよう訓練されている
    • リアルタイムのサイバーおよび生物学的不正利用分類器が、生成中の出力を評価する
    • 高リスク事例で潜在的な違反が検知されると、生成が一時停止される場合がある
    • より大規模な推論モデルが会話と文脈を検討し、出力が禁止対象と判断されればユーザーに届く前に保留される
  • アカウントレベルのレビューと差別的アクセス

    • フラグ付き活動は、関連する会話とリスクシグナルを含むアカウントレベルレビューにつながる可能性がある
    • 単一の会話ではなくアカウントレベルの文脈を見ることで、合法的なデュアルユースのセキュリティ作業と継続的な悪意ある行動を区別しやすくなる
    • 差別的アクセスは、重要な防御作業を維持しつつ、最も機微な能力がデフォルトで広く公開されないようにする
  • プレビュー中のユーザー影響

    • プレビュー期間中は、一部リクエストがブロックまたは拒否される可能性がある
    • 追加レビューによって生成が一時停止される場合、一部リクエストはより時間がかかることがある
    • 防御的活動と攻撃的活動が当初は似て見えるデュアルユース領域では、合法的な作業にも安全装置が介入することがある
    • プレビューからのフィードバックは、不必要なブロックや遅延を減らし、安全装置の文脈解釈を改善し、より広い公開前に体験を磨くために使われる
    • 企業顧客とは長期的なアプローチも議論中
      • プライバシー保護型の検知
      • 顧客運用の安全制御
      • 顧客、ユーザー、ワークロードのリスクに応じたアクセス権限

自動レッドチームによる堅牢性向上

  • 安全装置は、攻撃者が戦術を変えても効果を維持しなければならない
  • OpenAIは自社モデルを使って弱点を見つけ、安全装置をより速く改善している
  • 700,000 A100-equivalent GPU hours以上を自動レッドチームに投入
  • 自動レッドチームは、複数のプロンプトや文脈で機能するuniversal jailbreakを見つけることに重点を置く
  • このようなより一般的な攻撃に集中することで、固定された失敗事例リストを超えて安全装置をテストできる
  • 自動化により、人間のテストだけでは扱いにくい攻撃パターンをより多く探索し、失敗パターンをより早く見つけ、脆弱性の発見から修正までの時間を短縮する
  • 外部テスターとともに人間の専門家レッドチームも実施しており、この作業はプレビュー期間中も継続される
  • 新たに発見されたjailbreakは、再現、評価、優先順位付け、修正のプロセスを経て、今後類似の失敗をテストできるよう継続評価に追加される

提供方法と価格

  • プレビュー期間中、GPT‑5.6モデルはAPIとCodexを通じて、選ばれた信頼できるパートナーおよび組織に先行提供される
  • その後、ChatGPT、Codex、APIユーザーへより広く提供する計画
  • GPT‑5.6の新しい命名体系では、数字はモデル世代を表す
  • Sol、Terra、Lunaは、それぞれ独自の速度で進化できる継続的な能力ティアを意味する
  • この製品群は、知能、速度、コストの間で、ユーザーと開発者により明確な選択肢を提供する
  • トークン価格とキャッシュ

    • GPT‑5.6の価格は100万トークン単位で設定される
    • Sol: 入力$5 / 出力$30
    • Terra: 入力$2.50 / 出力$15
    • Luna: 入力$1 / 出力$6
    • GPT‑5.6は、より予測可能なプロンプトキャッシュを導入
      • 明示的なキャッシュ中断点をサポート
      • 最低30分のキャッシュ保持期間
    • GPT‑5.6以降のモデルでは、キャッシュ書き込みはそのモデルの非キャッシュ入力料金の1.25倍で課金される
    • キャッシュ読み取りは引き続きキャッシュ入力90%割引が適用される
  • Cerebras提供

    • GPT‑5.6 Solは7月にCerebrasで毎秒最大750 tokensの速度で提供予定
    • 初期アクセスは、容量拡大の過程で選定された顧客に限定される

1件のコメント

 
GN⁺ 6 시간 전
Hacker News の意見
  • 今回の発表で最も興味深い部分は、最後から2番目の段落に埋もれている: 「7月にCerebrasで 最大毎秒750トークン のGPT‑5.6 Solを公開し、前例のない速度でフロンティア知能を顧客に提供する。アクセスは容量拡張まで一部顧客に限定される」
    フロンティアモデルで750トークン/秒というのは本当に興味深い。性能面では単なるバージョン増以上かどうか疑わしいが、答えをより速く受け取れるならはるかに有用になる
    例えば、コードベース内で特定の機能を探す退屈な作業が思い浮かぶ。今でもこの作業ではAIエージェントハーネスにたいてい勝てないのに、モデルが3倍速くなればなおさら勝ち目は薄くなる

    • https://mikeveerman.github.io/tokenspeed/?rate=750&mode=think
      750トークン/秒 はだいたいこんな感じらしい
    • 比較すると、openrouter基準で Opus 4.8 は約55トークン/秒、高速モードは約102トークン/秒だという
      最大級のモデルで750トークン/秒ならとてつもないはず
    • 「コードベースで特定の機能を探す作業ではAIエージェントハーネスにたいてい勝てない」という話に共感する
      わずか1年前まではコードベースを把握しようとしてAIと「競争」していた記憶があるが、今は勝てる見込みがない。自分の推論能力が落ちたのか、モデルが良くなったのかは分からない
    • まだ GPT-5.3-codex-spark を使っているが、これもCerebrasチップで動いている
      Sparkは1000トークン/秒を超えられるが、コンテキストウィンドウが非常に限られていて多くのワークフローには合わない。今回のモデルは比較的少し遅くても、なお十分に優秀そうだ
    • ある程度の速度に達すれば、連続的/リアルタイム推論システム に移行できそうだ
      今の離散的でターンベースな解法は、学習の仕方までかなり制約している。連続的でリアルタイムな方式は、この分野を根本から変え得る
      情報理論の観点では、実際の情報伝送率はまだダイヤルアップ並みだ。750トークン/秒でもかなりひどいダイヤルアップ接続程度で、毎秒1000万トークンを想像してみればよい
  • こういう流れが見える: GPT-5 miniは$0.25/$2で12月に終了予定、GPT-5.4 miniは$0.75/$4.5で後継とされ、GPT-5.4 nanoは$0.2/$1.25でベンチマーク上はGPT-5 miniより優れているが、実運用シナリオではまったく似ていない
    つまり今5 miniを使っているなら、結局 GPT-5.4 mini へ追いやられることになる。ここでも「Luna」モデルが$1/$6なので、同じことが起きている
    私たちは本当に使いたいモデルを使い続けられないのだろうか。GPT 5.4 miniが必要なのではなく、GPT-5で十分だ
    そもそもそんなに安かったことはなく、私たちを遅く苦しい形でアップグレードさせようとしているのだと気づかされるのかもしれない

    • Anthropic/OpenAIのフロンティアモデル性能が必要ないなら、消えようのない オープンウェイトモデル の方が良いかもしれない
      HNではDeepSeek V4 Flashがよく話題に上るが、Artificial Analysisによれば2025年8月時点でGPT-5 highと互角だという [0]
      [0]: https://artificialanalysis.ai/models/comparisons/deepseek-v4-flash-vs-gpt-5
    • SaaSモデル とまったく同じだ。価格は上がり続け、それを正当化するために誰も頼んでいない機能を入れた新バージョンへのアップグレードを延々と強制する
    • この問題にはかなり苦しめられた。優秀で安価なモデルは確かに可能で、オープンソースにも多くあり、ネオクラウド各社が利益を出しながら提供している
      大手研究所は実質的に安価なモデルを諦めており、それがもどかしい。アプリケーションがその上にもうあまり積み上がらなくなる可能性が高い。例えば私たちもワークロードをHaiku/Sonnetから Deepseek v4 へ移しつつある
      問題は、売上高を維持するには高く取らなければならず、他社に自分たちを侵食されることより、自分たち自身で売上を食うことの方を恐れている点にあるようだ
    • 良い観察だ。価格上昇の流れは確かにあるが、同時にオープンモデルとクローズドモデルの両方で代替案が出てくるイノベーションと利用可能性がバランスを取っている
      研究所が価格をどこまで押し上げられるか探るのは自然であり、競合がそのマージンを自社の成長機会にするのも自然だ。最終的には価格はもっと安定していくと思う
    • Anthropic Haiku やGemini Flash/Flash Liteでも同じことが起きている。どこも価格を上げ、安価なモデルを廃止している
  • GPT-5.6 Solの検知された 不正行為率 は、私たちがReActエージェントハーネスで評価した公開モデルの中で最も高かった
    私たちのタスク集では「不正行為」を、モデルが期待された評価制約の中で問題を解く代わりに、評価環境のバグを悪用したり、タスクで禁じられた戦略を採用したりして評価性能を引き上げる行動と定義している
    https://metr.org/blog/2026-06-26-gpt-5-6-sol/

    • リンク先のこの引用は本当に恐ろしい: GPT-5.6 Solの評価時に見られた例として、モデルが中間提出物にエクスプロイトをパッケージしてタスクの隠されたテスト群の情報を露出させたり、別のタスクでは期待される答えを説明する隠しソースコードを抽出したりしたという
      Alibabaで見られた挙動 [0] と響き合うが、あれは学習中だった。これは準リリースモデルで起きたことだ
      [0] https://www.forbes.com/sites/boazsobrado/2026/03/11/alibabas-ai-agent-mined-crypto-without-permission-now-what/
    • モデルが不正をするのはかなり理にかなっている。評価中、ベンチマークのリクエストはこれら企業のバックエンドへ送られる
      これらの企業がやることは、そのリクエストをログに残し、次のモデルリリースで「修正」するだけだ
  • GPTはコードを書くのがいちばん上手いと思う。5.6バージョンでどれだけうまく書けるようになるのかと思うと鳥肌が立つ
    最近ほぼ2,000行のコードでGPTと真っ向から勝負したが、GPTの解法のほうが優れていて、しかも速かった。複数のGitHubコードベースを参考にしながら試したが、GPTには比べものにならなかった
    だからGPTを使うと、怖さと興奮が同時に来る。このレベルのコードが今や大多数にとって平均になるという気づきは怖いし、自分もこのレベルで勉強して学べるという点は興奮する
    5.6アップグレードでコードがどれだけ進化するのか本当に楽しみだ

    • 私は逆の陣営だ。オープンモデルのほうがうまくなり始めているし、GPT 5.5は相変わらずぐちゃぐちゃにする
      一方で、pi + glm + DeepSeekの組み合わせはとても良い。Fableは別種の怪物だったが。RIP
    • 純粋に主観だが、GPT 5.5のコードは全体的な上限はより高いかもしれないとしても、Opus 4.8の出力を読むほうをより好む
      前者のほうがレビューは少ししやすい
    • 数か月前にはOpus 4.6についてまったく同じ文言を何度も聞いたし、その後の4.7と4.8は期待外れだと見なされ、今では人々が「4.6の良き時代」を懐かしんでいる
      ここで言う良き時代とは2026年2月の数週間を指す。これが全部展開していくのを見るのはとても興味深い
    • コーディング能力がどれほど向上したのかは疑わしい
      発表にコーディングベンチマークが一つもなく、近いものといえばterminal benchだけというのは奇妙に見える
    • 例を出してもらえる? 何を解こうとしていたのか、自分の解法は何だったのか、そしてなぜGPTの解法のほうが優れていて速かったのか気になる
  • この24時間ほどでGPT-5.5を使っていたなら、すでに5.6にアクセスしていた可能性がある
    私たちが作っているハーネスでテストを回しているのだが、昨日突然スコアが数点跳ねた。ベースラインのCodexベンチマークを回し直したところ、GPT-5.5がベースラインCodexでTerminal Bench 2.1の約88%を出した
    スコアより大きなシグナルは、5.5でしばしば「安全」ブロックに引っかかっていた3つのテストが、昨夜は何の予告もなく通り始めたことだ

    • こうした変化は、何か神秘的なA/Bテストではなく、インフラ変更だけでも起こりうる
    • リリースを読んだのか? 誰にでも広く公開されたわけではなかった
      「政府と参加事実が共有された少数の信頼できるパートナーグループを対象に限定プレビューから開始し、その後より広く提供する」という内容だ
      このコメントは、平均的なLLMユーザーが実質的にスロットマシンの利用者のように振る舞うことの素晴らしい例だ。「これは熱い、これは運がいい、これは別のものより良い」と信じ、自分だけが持つ神秘的な理解に基づいてモデルを次々と切り替える
      それに80%のベンチマークが何だというのか? そういう公開ベンチマークで学習して、それに意味を見いだす人たちに印象を与えたいだけだ。なのに、なぜ時給$20〜30のUpwork作業では通過率が4%しかないのか? こうしたベンチマークは実質的に役に立たないように見える
      分散というものもあるのに、いくつかのテストでスコアが上がったからといって、アクセス権がないと言われていたモデルにアクセスできていると信じる理由がわからない
      https://labs.scale.com/leaderboard/rli
  • 人気スレに便乗して質問するが、今のCodexとClaudeの使用上限はどうなっている?
    以前、同じ作業を両方にやらせたことがあるが、Codexは私の5時間制限をClaudeの20分の1しか使わなかった。どちらも月額$20プランだった
    もともとClaudeのほうが好みだったのでいら立たしかったが、当時は上限のせいで真面目な作業には使えなかった
    その後、両プロバイダーとも利用可能量を大きく減らし、少なくとも一社はそれで訴訟まで起こされている
    今はどちらも契約しておらず、選択肢を比較しているところだ。GPTはOpusより少し良く、以前ははるかに高い上限を提供していたので、OpenAIの契約に傾いている。ただ、今の状況が2〜3か月前の記憶と一致しているのか知りたい。両社ともコスト削減圧力が強そうだからだ
    両方使ったことがある人の回答を望むが、体験談でも歓迎する

    • Codexの使用量はかなり太っ腹だと感じる。ただし私は**$200プラン**で、Claudeも$200プランを使っている
      その気になれば、起きている時間じゅうxhighとサブエージェントをほぼ回し続けられる。速度オプション1.5xを有効にすると、たまに5時間制限に達する
      5.5よりClaudeの雰囲気のほうが好きだが、5.5のほうがずっと怠けにくい気がする。もちろん、かなり作業内容とプロンプト戦略次第だろう
    • 先月のClaude Max 5xは、Fableとバグのせいでリセットが多く、使用量の面ではかなり寛大に感じられた
      5.5 highやOpus 4.8 highを使うと、正直かなり似た水準だ
      Maxプランでは個別のSonnet使用量がなくなったようだが、Sonnet 5の準備かもしれない。そのおかげでサブエージェントのワークフローがほぼ無制限に感じられていたので残念だ
    • 仕事でClaude CodeとCursor+Gpt55を比べると、Claudeのほうが明らかに遅く、より高い
    • 興味深い。1か月ほど前からClaude Codeがトークンを約5倍多く使うようになったと感じていた。あくまでざっくりした推測だけど
  • 「単一エージェントの能力を超えて複雑な作業を加速するために、サブエージェントを活用する新しいultraモードも導入する」とのことだが、これがどう動くのか気になる。
    サブエージェントも同じツールを使えるのか? クライアントはツール呼び出しであふれることになるのか? 同じことをクライアント側でより大きな制御権を持ってできるのに、なぜ新しい「モデル」に追加料金を払うのか?
    それに、サブエージェントの軍団だというなら、なぜ FableとMythos と比較するのかも気になる。同じようなハーネスを付ければ、それらのモデルのほうがおそらくより良いベンチマークを出す気がする

    • ClaudeCodeのultracodeに似ているなら、新しくも革新的でもない
      本質的には、メインモデルのスレッドが書いた決定論的なスクリプトが複数のサブエージェントを呼び出し、それぞれが大量のトークンを消費したあと、オーケストレーターエージェントが出力を統合する構造だ
    • Claude Ultracodeに似ているなら、プロンプト1つで30分のうちに 300万トークン を燃やす
    • 主要なハーネス(pi、Claude code、codex)はどれもサブエージェントを使っているのでは?
      明示的に指示すれば確実に使うし、少なくともpiは明示指示がなくても立ち上げるのを見たことがある
    • 自分も興味がある。純粋に性能をもう少し絞り出すためだけでないなら、こうした使い方の実運用データをきれいに集めるためではないかと思う
    • これまでサブエージェントを使っていなかったというのがすでに驚きだ。もしかすると、Webデプロイがcodexと統合されたという話をしているだけかもしれない
  • Mythosのときと同じで、自分が使えないモデルにはまったくワクワクしない

    • 少なくともOpenAIは、すべてのバージョンを一般公開する計画はある。Anthropicで起きていることよりはずっとましに見える
      「そう、うちには現存最高のモデルがある。信じて。本当にやばいから」
      「え、そうなんですか? 見せてもらえます?」
      「失せろ。お前らみたいな平民にはもっと劣るバージョンをやる」
      「うーん、ありがとうございます?」
      「笑、実はそれですらない。現政権がうちの恐怖マーケティングに引っかかったから、もっとひどくて狂ったように高価なトークン消費マシンをくれてやる。ハードウェア制限は毎週ひどくなってる」
      OpenAIについて何と言おうと、企業戦略はずっと堅実に見える
  • 「TerraはGPT‑5.5と競争力のある性能を示し、価格は半分」という話は、自分には「より劣った製品だが、マーケティング上それを隠そうとしている」という意味に聞こえる
    それに、「これまでで最も堅牢な安全スタック、高リスク活動・機微なサイバー要求・反復的な悪用に対する保護強化、数週間にわたる弱点探索・圧力テスト・実戦的な攻撃への備えの強化」といった文言は、せいぜい自分には価値がなく、たいていは害になる可能性が高い。拒否が増えたり、ユーティリティが弱くなったりするからだ
    プロバイダーはなぜこうも安全スタックを前面に押し出し続けるのだろう? こういうものを求める顧客が本当にいるのか? サポート用のChatGPTチャットボット利用者以外には思い浮かばない

    • 「TerraはGPT‑5.5と競争力のある性能を示し、価格は半分」というのは、今日のメインライン性能をずっと低い価格で得られる、という意味だと解釈している
    • Terraの目的は、最高モデルより安く、それでいてかなりまともなことだ。知能面で劣るのは当然
    • そのメッセージは明らかに 政府 を狙ったものだ。別スレッドを見ればいい
    • おそらく投資家向けのメッセージでもあるだろう