4 ポイント 投稿者 GN⁺ 6 일 전 | 1件のコメント | WhatsAppで共有
  • 複雑な作業を自律的に計画し、ツールを組み合わせて最後まで実行するエージェント型モデルで、コード作成とデバッグからWeb調査、データ分析、文書・スプレッドシート生成、ソフトウェア操作まで幅広く扱う
  • GPT-5.4と同じper-token latencyを維持しながらも、coding、computer use、知識労働、初期段階の科学研究で性能が向上し、同じCodex作業をより少ないトークンで完了できるため効率も高まった
  • ソフトウェアエンジニアリングでは Terminal-Bench 2.0 82.7%、Expert-SWE 73.1%、SWE-Bench Pro 58.6%を記録し、実装・リファクタリング・デバッグ・テスト・検証と大規模コードベースの文脈維持で強みを示した
  • 一般業務や研究ワークフローでも 文書・スプレッドシート・スライド生成、画面操作ベースのcomputer use、多段階データ分析、仮説検証、結果解釈まで続く流れが強化され、GPT-5.5 Proはより高い正確性と包括性を狙う
  • 発売前に 強化された安全対策 と内部・外部テストを経ており、ChatGPTとCodexでPlus、Pro、Business、Enterpriseを中心に順次展開中で、実務型AI活用の範囲をさらに広げる段階とみられる

モデル概要と展開範囲

  • GPT-5.5は、より速く意図を理解し、複数段階に絡み合った作業を自ら計画し、ツールを使って最後までやり切るモデルとして紹介されている
    • コード作成とデバッグ、Web調査、データ分析、文書とスプレッドシート作成、ソフトウェア操作、複数ツールをまたぐ作業を実行できる
    • 各段階を細かく管理するよりも、複雑で整理されていない作業をまとめて任せ、計画・ツール利用・検証・曖昧さの処理まで続けられるよう設計されている
  • エージェント型タスクでの向上が特に強調されており、coding・computer use・knowledge work・初期科学研究で高い性能を示す
    • 大規模モデルは遅くなる場合が多いが、実サービス基準の per-token latency はGPT-5.4と同じに保たれている
    • 同じCodex作業をより少ないトークンで終えられ、効率も高まっている
  • 発売前に 安全対策 を強化し、内部・外部のred teamテストと高度なcybersecurity・biology能力に対する追加試験、約200の信頼できるパートナーによる初期利用フィードバックを反映した
  • 現在はChatGPTとCodexで Plus、Pro、Business、Enterprise ユーザーに順次展開中で、GPT-5.5 ProはChatGPTのPro・Business・Enterpriseで提供される
    • APIは別途安全要件への対応を進めており、GPT-5.5とGPT-5.5 Proをまもなく提供する予定だ

ソフトウェアエンジニアリングとエージェント型コーディング

  • OpenAIは agentic AIインフラ を構築中で、この1年でAIがソフトウェアエンジニアリングを大きく加速させた
    • GPT-5.5がCodexとChatGPTに組み込まれ、こうした変化が科学研究や一般的なコンピュータ業務にも広がり始めている
  • Artificial Analysis Coding Index 基準では、競合するfrontier codingモデルと比べて半分のコストで最上位の知能を提供する
  • GPT-5.5はOpenAI基準で 最も強力なagentic codingモデル として紹介されている
    • Terminal-Bench 2.0では82.7%を記録し、計画・反復・ツール組み合わせが必要な複雑なコマンドラインワークフローを評価対象としている
    • SWE-Bench Proでは58.6%を記録し、実際のGitHub issue解決で従来モデルより多くの作業を単一パスでエンドツーエンドに解決した
    • 内部評価のExpert-SWEでもGPT-5.4を上回った
  • 3つのcoding評価全体で GPT-5.4より少ないトークン を使いながら、より高いスコアを出した
  • Codexでの強みは、実装、リファクタリング、デバッグ、テスト、検証全般に現れている
    • 大規模システムの文脈維持、曖昧な障害原因の追跡、ツールを通じた仮説確認、コードベース全体にわたる変更反映といった実際のエンジニアリング行動でより強くなっている

コーディング利用例と初期テスト

  • Artemis IIの実データを活用した WebGL + Viteアプリ 実装プロンプトが例として含まれている
    • NASA/JPL Horizonsベクトルデータを使ってOrion、Moon、Sunの軌道をレンダリングする
    • 可読性のため表示スケールを適用する
  • 初期テスターは、GPT-5.5が システム構造 をよりよく把握すると評価している
    • 何がなぜ失敗するのか、修正をどこに入れるべきか、コードベースの他部分にどんな影響が及ぶかをより正確に突き止める
  • Dan Shipperは、障害発生後の状態を巻き戻して同等レベルの再設計を作れるか試し、GPT-5.4は失敗し、GPT-5.5は成功 した
  • Pietro Schiranoは、数百件のfrontendとrefactor変更が入ったブランチを、大きく変わったmainブランチへ 約20分で一度にマージ した
  • シニアエンジニアのテストでは、GPT-5.4やClaude Opus 4.7より reasoningとautonomy が際立っていた
    • 明示的なプロンプトがなくても問題を事前に見つけ、テストやレビューの必要性まで予測した
    • 協業型markdown editorのcomment system再設計を依頼した際、12-diffスタックがほぼ完成した状態で出てきた
    • 実装修正は予想より少なくて済み、計画に対する信頼度もGPT-5.4より高まった
  • CursorのMichael Truellの引用では、より長く作業を継続 し、早期中断なしで複雑かつ長時間実行のタスクにより適している特性が示された

一般的な知識労働とコンピュータ利用

  • codingで示された強みは 日常的なコンピュータ業務 にもそのままつながる
    • 意図をより正確に理解するため、情報探索、重要情報の選別、ツール利用、結果検証、素材を有用な成果物へ変えるまでの全過程をより自然にこなす
  • CodexでGPT-5.5はGPT-5.4より 文書、スプレッドシート、スライド 生成に強い
    • alphaテスターは、オペレーションズリサーチ、スプレッドシートモデリング、整理されていないビジネス入力を計画に変える作業で従来モデルより優れていると述べた
  • Codexの computer use 能力と組み合わせると、画面を見て、クリックし、入力し、インターフェースを探索し、複数ツール間を精密に行き来できる
  • OpenAI内部でもすでに実ワークフローで使われており、現在 従業員の85%以上が毎週Codexを利用 している
    • ソフトウェアエンジニアリング、財務、コミュニケーション、マーケティング、データサイエンス、プロダクト管理全般にわたって活用されている
  • コミュニケーションチームは、6か月分のspeaking requestデータを分析して スコアリング・リスクフレームワーク を作成し、低リスクの依頼は自動処理し、高リスクの依頼は人がレビューするSlack agentを検証した
  • Financeチームは 24,771件のK-1税務フォーム、計71,637ページをレビューし、個人情報を除外するワークフローによって前年より2週間前倒しした
  • Go-to-Marketチームでは、週次ビジネスレポート生成を自動化し、週あたり5〜10時間 を節約している

ChatGPTにおけるGPT-5.5 ThinkingとGPT-5.5 Pro

  • ChatGPTのGPT-5.5 Thinkingは、より難しい問題により速く答えるよう設計されており、より賢く簡潔な回答によって複雑な業務をより効率的に進められるようにする
    • coding、research、情報の総合と分析、文書中心の作業に強く、特にplugin利用時に有利
  • GPT-5.5 Proは、より難しい作業とより高い品質を狙ったもので、レイテンシが減少し、実務への適用性が高まった
    • GPT-5.4 Proと比べて応答がより包括的で、構成が良く、正確で、関連性が高く、有用になった
    • business、legal、education、data scienceで特に強い
  • 専門業務に近いベンチマークでも高い数値を示した
    • GDPval 84.9%、OSWorld-Verified 78.7%、Tau2-bench Telecom 98.0%を記録
    • Tau2-bench Telecomはprompt tuningなしで実施された
    • FinanceAgent 60.0%、internal investment-banking modeling tasks 88.5%、OfficeQA Pro 54.1%もあわせて提示された
  • NVIDIAのJustin Boitanoの引用では、NVIDIA GB200 NVL72システム上で提供され、自然言語プロンプトでend-to-end機能を出荷し、デバッグ時間を数日から数時間へ短縮し、数週間かかる実験を一晩で実行へと変える流れが示された

科学研究と技術研究のワークフロー

  • GPT-5.5は科学・技術研究ワークフローでも性能向上を示した
    • 難しい質問に答える水準を超え、アイデア探索、根拠収集、仮説検証、結果解釈、次の実験の決定まで続くループをよりうまく維持する
  • GeneBenchではGPT-5.4より明確な改善を示した
    • geneticsとquantitative biologyの多段階データ分析を対象にした新しい評価
    • 曖昧または誤りを含むデータ、隠れたconfounder、QC失敗、現代的な統計手法の実装と解釈を扱う
    • ここでの作業は、科学の専門家にとっても数日がかりのプロジェクトに相当する
  • BixBenchでも公開スコアのあるモデルの中で先導的な性能を記録した
    • 実際のbioinformaticsとデータ分析を反映したベンチマークとして紹介されている
    • biomedical researchの最前線でco-scientistレベルの加速可能性を示した
  • 内部版GPT-5.5とcustom harnessは、Ramsey numbersに関する新たな証明を見つけるのにも使われた
    • 新しい証明のリンク
    • combinatoricsにおける古くからのoff-diagonal Ramsey numbersの漸近的事実に関する証明を見つけ、その後Leanで検証した
    • コードや説明を超えて、核心的な研究分野で有用な数学的論証にも貢献した
  • 初期テスターたちは、GPT-5.5 Proを単発の回答エンジンというより研究パートナーに近い形で活用した
    • 原稿を何度も批判的にレビューし、技術的論証をstress testし、分析を提案し、コード・ノート・PDFの文脈とともに作業した
    • 質問から実験、成果物までつながる流れをよりよく支援する

研究事例

  • Jackson Laboratory for Genomic MedicineのDerya Unutmazは、GPT-5.5 Proで62サンプル、約28,000遺伝子のgene-expressionデータセットを分析した
    • 詳細な研究レポートを生成し、結果の要約だけでなく重要な問いと洞察まで明らかにした
    • この作業は、彼のチームが実施すれば数か月かかる規模だった
  • Adam Mickiewicz UniversityのBartosz Naskręckiは、Codexで単一のプロンプトから11分でalgebraic-geometryアプリを作成した
    • 2つのquadratic surfaceの交差を可視化し、結果の曲線をWeierstrass modelへ変換した
    • その後、singularity visualizationをより安定させ、後続作業に再利用可能なexact coefficientsまで追加した
    • 専用ツールが必要だったカスタム数学可視化やcomputer-algebraワークフローの実装にもCodexが役立った
  • Credit: Bartosz Naskręcki
  • Axiom BioのBrandon Whiteの引用では、巨大なbiochemical datasetを推論してhuman drug outcomesを予測し、最も難しいdrug discovery評価で意味のある精度向上が現れた

推論インフラと性能最適化

  • GPT-5.4と同等のレイテンシでGPT-5.5を提供するには、推論を個別の最適化の寄せ集めではなく統合システムとして再設計する必要があった
    • GPT-5.5はNVIDIA GB200およびGB300 NVL72システムを前提に共同設計・学習・提供された
  • CodexとGPT-5.5自体が、性能目標の達成に直接貢献した
    • Codexは、アイデアをベンチマーク可能な実装へ素早く移し、アプローチをスケッチし、実験をつなぎ、より深い投資が必要な最適化を見つけるのに使われた
    • GPT-5.5は、スタック内部の中核的な改善点を見つけて実装するのに役立った
    • 最終的に、モデル自身が自分を提供するインフラ改善にも貢献した
  • 代表的な改善例としてload balancingとpartitioning heuristicsが紹介された
    • 以前は、accelerator上のリクエストを固定数のchunkに分割し、大きなリクエストと小さなリクエストが同じGPUで動くようにしていた
    • しかし、静的なchunk数はあらゆるトラフィック形態に最適ではなかった
    • Codexが数週間分のproduction trafficパターンを分析し、作業を最適に分割・平準化するカスタムheuristicアルゴリズムを書いた
    • この作業により、token generation speedが20%以上向上した

サイバーセキュリティとセーフガード

  • 脆弱性の検知とパッチ適用に長けたモデルを世に送り出すことは、チームスポーツに近く、次のサイバー防御時代に向けてはエコシステム全体のレジリエンスが必要となる
  • frontierモデルのcybersecurity能力はますます強まっており、この能力は広く普及していくため、サイバー防御の加速とエコシステム強化に使われる道筋が重要になっている
  • GPT-5.5は、cybersecurityのような難しい問題を解くAIへ向かう漸進的だが重要な一歩と位置づけられている
    • GPT-5.2では、潜在的なサイバー悪用を抑える cyber safeguards を先行配置した
    • GPT-5.5には、潜在的なサイバーリスクに対するより厳格なclassifierを配置しており、初期段階では一部のユーザーにとって煩わしく感じられる可能性がある
  • OpenAIは数年にわたり、Preparedness Framework の中でcybersecurityを独立したカテゴリとして扱っており、能力向上に合わせて緩和策も反復的に調整してきた
  • 業界トップクラスのsafeguardsを、このレベルのサイバー能力に合わせて配置している
    • GPT-5.2でcyber-specific safeguardを初めて導入し、その後の各デプロイでテスト・精緻化・拡張を進めてきた
    • GPT-5.5では、高リスク活動、センシティブなサイバー要求、反復的な悪用に対する保護をさらに強化している
    • 幅広いアクセスは、モデル安全性、認証済み利用、許可されていない利用の監視への投資によって可能になっている
    • 外部専門家と数カ月にわたりrobustnessを開発・試験・改善した
    • 開発者がコードを容易に保護できるようにしつつ、悪意ある行為者が被害を生みやすいサイバーワークフローにはより強い制御を設けている
  • 防御目的のアクセス拡大も同時に進められている
    • Trusted Access for Cyber を通じてcyber-permissiveモデルへのアクセスを提供しており、出発点はCodexとなる
    • 特定の trust signals を満たした検証済みユーザーには、GPT-5.5の高度なcybersecurity機能をより少ない制限で提供する
    • critical infrastructure defense を担う組織は、GPT-5.4-Cyberのようなcyber-permissiveモデルへのアクセスを申請できる
    • 検証済みの防御担当者には、正当なセキュリティ業務向けツールをより少ない摩擦で提供することが目的である
    • 申請リンク: chatgpt.com/cyber
  • 政府パートナーとの協力も含まれる
    • 税務データ保護向けデジタルシステム、電力網、地域社会の上水道といった重要インフラを防御する公共部門の担当者を、高度なAIがどのように支援できるかを共に模索している
  • GPT-5.5のbiological/chemicalおよびcybersecurity能力は、Preparedness Framework上でHighに分類される
    • Criticalレベルのcybersecurity capabilityには到達していないが、評価とテストではGPT-5.4より一段階高いサイバー能力が確認された
  • リリース前に全面的なsafety and governance processを経ている
    • preparedness評価、分野別テスト、高度なbiology・cybersecurityを対象とした新たなターゲット評価、外部専門家との堅牢なテストを含む
    • 詳細は GPT-5.5 system card で提供されている
  • このアプローチは、より強力なモデル時代に必要なAI resilience戦略の一部である
    • 強力なAIは、システム・機関・公共を守る人々にも提供されるべきであり、信頼ベースのアクセス、能力に応じて強化されるsafeguards、深刻な悪用を検知して対応する運用能力が中核的な道筋として示されている

利用可能プランと価格

  • 現在、ChatGPTとCodexでGPT-5.5はPlus、Pro、Business、Enterpriseユーザーに展開中で、GPT-5.5 ProはChatGPTのPro、Business、Enterpriseで提供される
  • ChatGPTではGPT-5.5 ThinkingがPlus、Pro、Business、Enterpriseで提供される
    • GPT-5.5 Proは、より難しい質問とより高い精度を狙っており、Pro、Business、Enterpriseで利用できる
  • CodexではGPT-5.5がPlus、Pro、Business、Enterprise、Edu、Goプランで提供され、400K context windowを備える
    • Fast modeも提供され、トークン生成速度は1.5倍速く、コストは2.5倍となる
  • API開発者向けのgpt-5.5は、Responses APIとChat Completions APIにまもなく提供予定である
    • 入力100万トークンあたり5ドル、出力100万トークンあたり30ドル、1M context windowと記載されている
    • BatchとFlex pricingは標準API料金の半額、Priority processingは2.5倍料金で提供される
  • gpt-5.5-proもAPIで提供予定で、より高い精度を目指す
    • 入力100万トークンあたり30ドル、出力100万トークンあたり180ドルとされている
    • 価格の詳細は pricing page に掲載されている
  • GPT-5.5はGPT-5.4より価格は高いが、知能とトークン効率も高い
    • Codexでは、ほとんどのユーザーに対してGPT-5.4より少ないトークンでより良い結果を出せるよう体験を調整している
    • サブスクリプションの各段階を通じて、十分な利用量を引き続き提供する

詳細ベンチマーク

  • Coding

    • SWE-Bench Pro (Public)では、GPT-5.5は58.6%、GPT-5.4は57.7%、Claude Opus 4.7は64.3%、Gemini 3.1 Proは54.2%
    • Terminal-Bench 2.0はGPT-5.5 82.7%、GPT-5.4 75.1%、Claude Opus 4.7 69.4%、Gemini 3.1 Pro 68.5%
    • Expert-SWE (Internal)はGPT-5.5 73.1%、GPT-5.4 68.5%と提示されている
  • 専門業務

    • GDPval (wins or ties)はGPT-5.5 84.9%、GPT-5.4 83.0%、GPT-5.5 Pro 82.3%、GPT-5.4 Pro 82.0%、Claude Opus 4.7 80.3%、Gemini 3.1 Pro 67.3%
    • FinanceAgent v1.1はGPT-5.5 60.0%、GPT-5.4 56.0%、GPT-5.4 Pro 61.5%、Claude Opus 4.7 64.4%、Gemini 3.1 Pro 59.7%
    • Investment Banking Modeling Tasks (Internal)はGPT-5.5 88.5%、GPT-5.4 87.3%、GPT-5.5 Pro 88.6%、GPT-5.4 Pro 83.6%
    • OfficeQA ProはGPT-5.5 54.1%、GPT-5.4 53.2%、Claude Opus 4.7 43.6%、Gemini 3.1 Pro 18.1%
  • コンピュータ利用とビジョン

    • OSWorld-VerifiedはGPT-5.5 78.7%、GPT-5.4 75.0%、Claude Opus 4.7 78.0%
    • MMMU Pro (no tools)はGPT-5.5とGPT-5.4がともに**81.2%**で、Gemini 3.1 Proは80.5%
    • MMMU Pro (with tools)はGPT-5.5 83.2%、GPT-5.4 82.1%
  • ツール使用

    • BrowseCompはGPT-5.5 84.4%、GPT-5.4 82.7%、GPT-5.5 Pro 90.1%、GPT-5.4 Pro 89.3%、Claude Opus 4.7 79.3%、Gemini 3.1 Pro 85.9%
    • MCP AtlasはGPT-5.5 75.3%、GPT-5.4 70.6%、Claude Opus 4.7 79.1%、Gemini 3.1 Pro 78.2%
    • ToolathlonはGPT-5.5 55.6%、GPT-5.4 54.6%、Gemini 3.1 Pro 48.8%
    • Tau2-bench Telecomは元のプロンプト基準でGPT-5.5 98.0%、GPT-5.4 92.8%
    • MCP Atlasの注記には、Scale AIの2026年4月の最新アップデート以降の結果と記されている
    • Tau2-bench Telecomの注記には、prompt adjustmentなしで評価した結果であり、他研究所のprompt adjustment結果は除外したと明記されている
  • 学術

    • GeneBenchはGPT-5.5 25.0%、GPT-5.4 19.0%、GPT-5.5 Pro 33.2%、GPT-5.4 Pro 25.6%
    • FrontierMath Tier 1–3はGPT-5.5 51.7%、GPT-5.4 47.6%、GPT-5.5 Pro 52.4%、GPT-5.4 Pro 50.0%、Claude Opus 4.7 43.8%、Gemini 3.1 Pro 36.9%
    • FrontierMath Tier 4はGPT-5.5 35.4%、GPT-5.4 27.1%、GPT-5.5 Pro 39.6%、GPT-5.4 Pro 38.0%、Claude Opus 4.7 22.9%、Gemini 3.1 Pro 16.7%
    • BixBenchはGPT-5.5 80.5%、GPT-5.4 74.0%
    • GPQA DiamondはGPT-5.5 93.6%、GPT-5.4 92.8%、GPT-5.4 Pro 94.4%、Claude Opus 4.7 94.2%、Gemini 3.1 Pro 94.3%
    • Humanity's Last Exam (no tools)はGPT-5.5 41.4%、GPT-5.4 39.8%、GPT-5.5 Pro 43.1%、GPT-5.4 Pro 42.7%、Claude Opus 4.7 46.9%、Gemini 3.1 Pro 44.4%
    • Humanity's Last Exam (with tools)はGPT-5.5 52.2%、GPT-5.4 52.1%、GPT-5.5 Pro 57.2%、GPT-5.4 Pro 58.7%、Claude Opus 4.7 54.7%、Gemini 3.1 Pro 51.4%
  • サイバーセキュリティ

    • Capture-the-Flags challenge tasks (Internal)はGPT-5.5 88.1%、GPT-5.4 83.7%
    • CyberGymはGPT-5.5 81.8%、GPT-5.4 79.0%、Claude Opus 4.7 73.1%
    • 注記には、system cardに記された最難関のCTFを拡張し、追加の高難度チャレンジを加えた結果だと記されている
  • 長いコンテキスト

    • Graphwalks BFS 256k f1はGPT-5.5 73.7%、GPT-5.4 62.5%、Claude Opus 4.7 76.9%
    • Graphwalks BFS 1mil f1はGPT-5.5 45.4%、GPT-5.4 9.4%、Claude Opus 4.6は41.2%
    • Graphwalks parents 256k f1はGPT-5.5 90.1%、GPT-5.4 82.8%、Claude Opus 4.7 93.6%
    • Graphwalks parents 1mil f1はGPT-5.5 58.5%、GPT-5.4 44.4%、Claude Opus 4.6は72.0%
    • OpenAI MRCR v2 8-needleはコンテキスト長ごとに提示され、4K-8K 98.1%、8K-16K 93.0%、16K-32K 96.5%、32K-64K 90.0%、64K-128K 83.1%、128K-256K 87.5%、256K-512K 81.5%、512K-1M 74.0%
    • 同じ項目でGPT-5.4はそれぞれ97.3%、91.4%、97.2%、90.5%、86.0%、79.3%、57.5%、36.6%
    • 128K-256K区間にはClaude Opus 4.7 59.2%、512K-1M区間にはClaude Opus 4.7 32.2%が記載されている
  • 抽象推論

    • ARC-AGI-1 (Verified)はGPT-5.5 95.0%、GPT-5.4 93.7%、GPT-5.4 Pro 94.5%、Claude Opus 4.7 93.5%、Gemini 3.1 Pro 98.0%
    • ARC-AGI-2 (Verified)はGPT-5.5 85.0%、GPT-5.4 73.3%、GPT-5.4 Pro 83.3%、Claude Opus 4.7 75.8%、Gemini 3.1 Pro 77.1%
    • GPT系の評価はreasoning effortをxhighに設定した研究環境で実施されており、一部のケースでは本番環境のChatGPTと出力が若干異なる可能性があると明記されている

1件のコメント

 
GN⁺ 6 일 전
Hacker Newsのコメント
  • NVIDIAでGPT-5.5へのアクセス喪失がまるで手足を失うような感覚だという話は、意図以上にずっと不気味に聞こえる
    これはフロンティアコーディングモデル依存全般に当てはまる話のようで、性能が良くなるほどコーディング時にすぐ頼るようになる
    実際に経験してみると不快な感情が大きい。今では我慢して手でコードを書くより、モデルで一気に処理したほうが10倍くらい速く、自分の役割も変わってしまった
    大量に回せるのはすごいが、トークンが尽きると実質的に仕事も止まる
    Claudeが落ちたときは、無理やりコードを書くより散歩して戻ってくるほうがレバレッジが高い。1時間後にClaudeが復活していれば、LLMが作ったコードを抱えて手動で問題を解こうとして消耗するより、ずっと進捗が出る
    とにかくこういう状態が続くのは少し不安だ

    • 労働理論そのものがLLMでひっくり返るように感じる
      今の市場は、労働が原子化され交渉力が弱いという前提の上に成り立っていて、資本ははるかに大きな交渉力を持ち、労働価格を事実上決めてきた
      だが、その労働をより大きな別の企業が提供し、その労働が伝統的な労働と違って無期限に供給を止められるとしたらどうなるのか
      労働は今や別の形の資本になり、資本は飯を食わなくていい
      自前モデルを使わない会社は、その結果を身をもって学ぶことになりそうだ
    • ライブラリ抽象化を使うのとそれほど違わないとも言える
      もっと速く作れて、自分で書くコードは減り、内部状態管理やメモリ管理はライブラリが代わりにやってくれる
      ポインタやmalloc()を直接触る代わりにライブラリ呼び出しに依存することを不快に思う人もいるだろうが、人によっては低レベルのコンテキストスイッチに落ちず、より高いレベルのアーキテクチャに集中できる解放感がある
    • 自分の墓をあまり早く掘らないために、あえてそう使う方法がある
      あらかじめ完成した答えではなく、独立実行型のCLIやツールを作ってくれとよく頼む
      どうやってそういう結論に達したのかも聞いて、自分の視野を広げようとし、自己メタデータ的な分類方法も説明させる
      特に難しさが概念そのものより参照グラフの大きさにある大規模コードベースでは、これを自分の問題解決力を改善する方向で使おうとしている
    • ローカルモデルが最新のホスト型モデルと適度な差だけを保ち、たとえば12か月遅れ程度にとどまり、ローカルハードウェアにも引き続きアクセスできるなら、リスクは限定的かもしれない
      ホスト型モデルが消えたり高額になったりしても、そのわずかな性能差を失うだけで済むからだ
      もちろんこの2つの前提はどちらもまったく自明ではなく、そうなってほしいと願っている程度ではある
    • NVIDIAとOpenAIの株価上の利害を考えれば、ああいう発言が出るのも不思議ではない
      それに、いまだに生産性10倍のスローガンが繰り返されるのは正直信じがたい
  • GPT-5.5のリリースは今日だが、ChatGPTとCodexへの反映は数時間かけて段階的に行われるとのこと
    サービス安定性のため、前回のリリース同様に段階的に開放し、通常はPro/Enterpriseから始めてPlusへ下りていく
    すぐには見えないかもしれないので後でまた確認してほしいとのこと
    ランダムに待たされるのでイライラするかもしれないが、安定性のためそうしているという
    OpenAIで働いていると明かしている

    • GPT-5.4 API xhighでOpenClawを回してみたが、モデルに仕事をさせることができなかった
      Anthropic OAuthgate以降、代替として本格的に使おうとしたが、速くて安全で無害なサブタスクすら完了できなかった
      会話は「ここでXをやるべきだった」「そうだ、失敗した」「じゃあ今やって」「やるべきだったがやらなかった」という具合に、延々と謝罪を繰り返すだけで終わった
      後でGLM、Kimi、Minimaxが問題なくやってのけたのを見るとさらに呆れ、結局OpenAIはすぐ捨てるしかなかった
    • 公開用のロールアウトダッシュボードがあれば混乱はかなり減るはずだ
      さらに言えば、UI上でモデル自体は存在するがまだ自分のアカウントには開放されていないことを示してほしい
      ETAまで出れば最高だが、ロールアウト中に問題が起きることもあるので予測は難しそうだ
    • リリースおめでとう
      Images 2.0もChatGPT内で一緒に公開されるのか、それとも当面はAPI/Playground専用機能のままなのか気になる
    • Plusユーザーとしては、Codexの使用量上限をどれだけ食うのかわからず、気軽に試すのをためらう
    • GPT-5.5のファインチューニングも近いうちに出るのか気になる
  • まだ公式APIアクセスはないが、最近のOpenAIはOpenClawが使っているCodex APIバックドアを事実上黙認している雰囲気に見える
    https://twitter.com/steipete/status/2046775849769148838 および https://twitter.com/romainhuet/status/2038699202834841962
    そのバックドアAPIにはGPT-5.5も入っている
    そこでペリカンの例を動かしてみた
    https://simonwillison.net/2026/Apr/23/gpt-5-5/#and-some-peli...
    LLM向けの新しいプラグイン https://github.com/simonw/llm-openai-via-codex を使った
    後で reasoning effort をxhighに上げると、ずっと良いペリカンが出てきた
    https://gist.github.com/simonw/a6168e4165a258e4d664aeae8e602...

    • 昨日投稿したローカルモデルのペリカンのほうがこれより見た目が良かった
      それでも今回は脚を組んでいて笑えるけど
    • これは正直かなりひどい
      5.5バージョンまで来て、まだ基本的な自転車フレームひとつまともに描けないのはどうなんだ
      前輪が横を向ける構造ではないのに、絵がそこを合わせられていない
    • デフォルト設定でreasoning tokens 39個しか使わずにあれをやったというのはかなり驚きだ
      reasoning token が正確に何なのかはわからないが、とにかくトークン数が衝撃的に少なく見える
    • こういう直接API利用が規約上許されるのか気になる
      Anthropicはこういう使い方をかなり嫌っていた記憶がある
    • なぜ最近投稿した他のものよりはるかに描写が下手なのか気になる
      昨日投稿したQwenのようなオープンウェイトのローカルモデルですら、もっと良く見えた
  • みんなAnthropicのMythosゲーティングとCyberGym 83%マーケティングばかり話していたが、OpenAIはGPT-5.5をそのまま出してきて、スコアも82%だ
    誰でも触れるという点のほうがずっと重要だ
    攻撃/防御のサイバーセキュリティにいる人なら、誇張された宣伝より、こういう実際に公開されたモデルを自分で触るべきだと思う
    こんなことを言う日が来るとは思わなかったが、今ではOpenAIのほうが再びよりオープンな選択肢に見える

    • 本当のハイプは、AnthropicがMythosを発表した途端、OpenAIが数週間以内に対抗モデルを出し、Samはアクセスも塞がないだろうと皆が悟ったところにあった
      だからセキュリティ業界が恐慌状態になったのは、新しいゼロデイを防ぐ時間が実質2週間あまりしかなく、その後はブラックハットが大量に見つけて悪用するオープンシーズンが始まりうると見たからだ
    • Anthropicと比べれば、OpenAIのほうがもともとずっとオープンだった
      Anthropicは公開モデルを一度も出したことがなく、Claude Codeのソースも自発的に公開したことがなく、トークナイザーも公開していない
    • OpenAIはサイバーセキュリティ質問をすると怒り、政府発行IDのアップロードを要求し、そうしないとこっそり性能の低いモデルにルーティングしているのではないかという気がする
      ドキュメントにも、サイバーセキュリティ関連の作業は自動検知に引っかかるとGPT-5.2にフォールバックされる可能性があると書かれている
      https://developers.openai.com/codex/concepts/cyber-safety
      https://chatgpt.com/cyber
    • 自分はハイプニュースは全部無視している
      Anthropicは自分にはほとんど大げさな売り込みの具現化のように感じる
      以前Cialdiniを読んでから、Anthropic式の演出には飽きた
      一方でOpenAIは非常に賢い。Claudeが注目された後しばらく見出しから消えていたが、今は巨大なユーザーベースのおかげで、Anthropicのリリース周期に合わせるだけで相手を滑稽に見せられる
      Anthropicにとっては、新しいGPTバージョンが出るたびにさらに悲惨になっていきそうで、OpenAIが完全に支配する構図に見える
    • OpenAIもサイバー関連の質問はもっと愚かなモデルに回しているのではないかと思う
  • このページの料金/使用量制限セクションを見るといい
    https://developers.openai.com/codex/pricing?codex-usage-limi...
    5.3、5.4、5.5のLocal Messagesの差を見ればよい
    5.5のほうが効率的で5.4と損益分岐が近い、という主張は読んだが、それでも制限はより厳しくなり価格は上がる流れに見える

    • APIベースではGPT-5.5の価格はGPT-5.4の2倍、GPT-5.1の約4倍、Kimi-2.6の約10倍だ
      Anthropicの件から得た教訓は、開発者はコーディングエージェントにすぐ依存し、しまいには中毒的にすらなるので、小さな改善でもいくらでも金を払うということだったのだろう
  • CodexとGPTで作った3Dダンジョンアリーナのプロトタイプはかなりもっともらしく見える
    Codexがゲームアーキテクチャ、TypeScript/Three.js実装、戦闘システム、敵遭遇、HUDフィードバックを担当し、環境テクスチャはGPTが生成し、キャラクターモデルとアニメーションはサードパーティのアセット生成ツールで作ったとのこと
    見た目が良い理由も、おそらくメッシュをGPT-5.5が直接作ったのではなく別ツールが作ったからだろう
    これを見ると、昔のFlash時代のように、ゲーマーや趣味開発者もゲームコンセプトを素早く作ってすぐWebに公開する時代が来るように思える
    特にThree.jsはゲームエンジンですらないのに、AIでゲームを設計するうえで事実上の中核ツールのように浮上してきている

    • この3年間 Three.jsとAIをずっと試してきたが、5.4では特に大きな飛躍を感じた
      Three.jsだけで見れば最大の単一世代ジャンプで、とくにGLSLシェーダーで顕著だったし、複数ページ/コンポーネントに分かれたシーン構造化も良くなった
      完全なシェーダーをゼロから作るのはまだ難しいが、既存シェーダーを修正する能力はかなり実用的になってきた
      5.2以下では、ひとつの背景キャンバスを複数ルートにまたがって維持するone canvas, multiple pageパターンが本当に苦手だったが、5.4はまだ多少手を引いてやる必要があるとはいえ、リファクタリングや最適化のプロンプトにずっとよく反応する
      5.5が実際どうなのか試すのが楽しみだ
    • Flashのような時代はすでにしばらく前から来ていて、ボトルネックはいつだって創造性だった
    • Three.jsベースのゲームやプロジェクトでLLMの助けをかなり受けてきたし、成果も良かった
      自分が作った風変わりな時計ビジュアライゼーションもかなりの部分でこれに依存していた
      ゲームエンジンではないが、WebでWebGL 3Dをやるなら事実上の標準で、歴史が長いだけに学習データも膨大だ
      LLM以前は、もう少し高水準機能の多いBabylon.jsにより頼っていた
    • 知人がJamboreeを作っている
      以前の名前はSpielwerkで、iOSでゲームを作って共有するアプリだ
      全部Webベースなので共有しやすい
      https://apps.apple.com/uz/app/jamboree-game-maker/id67473110...
    • LLMはまだ空間推論ができない
      GPTでは試していないが、Claudeではどれだけプロンプトエンジニアリングをしてもルービックキューブを解けず、Opus 4.6もパズルの約70%までは合ってもそこで詰まった
      1回の試行に20ドルずつかかるのでコストも厳しい
      もし3次元推論をちゃんとさせられるなら、今解けない数学問題にも同じアプローチを広げられそうだ
      自分のRubik's Cube MCPサーバーを公開して、誰かがプロンプトだけでキューブを解けるか挑戦させてみようかと思っている
  • 今回の発表でベンチマーク以上に興味深かったのは、Codexが数週間分の実トラフィックパターンを解析してGPU活用率を高め、作業分割とバランシングのためのカスタムヒューリスティックアルゴリズムを書いてトークン生成速度を20%以上引き上げた、というくだりだ
    エージェント型LLMがこういう形で計算効率最適化をやってのける領域は影響が大きいのに、ベンチマークより試されにくいように思える
    自分の経験ではこの点はまだOpusのほうがGPT/Codexより上だが、OpenAIはコストと容量の圧力の中でこうした性能最大化による実利を得ているので、今後もこの方向を押し進めるだろう

    • Rustで高性能データ処理をしていて、100倍以上改善しないといけない性能の壁にぶつかった
      昔有名だったIntelのFizzBuzzコードゴルフ最適化を思い出し、gemini proに自分のコードと一緒に「そういう類いの賢い最適化を提案してくれ」と頼んだら、本当に見事な提案が返ってきた
      LLMには毎日のように驚かされる
    • すでにKernelBenchがCUDAカーネル最適化をテストしている
      そして各社も、自社インフラとモデル最適化こそ競争に勝つための中核経路だとみな分かっているのだから、この部分はかなり真剣にやっているはずだ
    • こういう主張はあまりに経験的で再現が難しいのが問題だ
      MMLUのような伝統的ベンチの外へ進むのは歓迎だが、適切な統制実験なしにこういう数値を語ってもあまり役に立たない
  • Mythos vs GPT-5.5を数値で見ると、SWE-bench Proではまだ差が大きいが、それ以外はかなり近いように見える
    SWE-bench Pro 77.8% 対 58.6%
    Terminal-bench-2.0 82.0% 対 82.7%
    GPQA Diamond 94.6% 対 93.6%
    H. Last Exam 56.8% 対 41.4%
    H. Last Exam (tools) 64.7% 対 52.2%
    BrowseComp 86.9% 対 84.4%、Pro基準では90.1%
    OSWorld-Verified 79.6% 対 78.7%
    Mythosの数値の出典は https://www.anthropic.com/glasswing

    • Mythosは実際に使えるときだけ意味がある
      今のOpus 4.7を使うと、自律性が体感でかなりナーフされており、いわゆる安全性のための制約が強い
      だからAnthropicが宣伝するほど実際にすごいのか、自分はあまり確信が持てない
    • Anthropicのリリースページによれば、SWE-benchの暗記をClaudeチームが確認しており、テストが実際に学習データに入っていたという
      ここにある
      https://www.anthropic.com/news/claude-opus-4-7#:~:text=memor...
    • 自分はSWE-bench Verifiedを少し調べてみたが、Mythosの数値にはいくつも疑問が残る
      公式提出物を https://github.com/SWE-bench/experiments/tree/main/evaluatio... で Sonnet 4以降のモデルだけに絞り、500問全体について集計してみると、全モデルを合わせた解決率がちょうど93%だった
      なのにMythosが93.7%を出したというのは、他のどのモデルも解けなかった問題まで解いたという意味で、その問題を実際に見てみるとさらに怪しかった
      残り7%の問題は、テストパッチを事前に見ていなければ解くのがほぼ不可能に見えたし、実際の解法が問題文とあまりに違う方向へ進んでいて、まるで別の問題を解いているようにすら思えた
      Mythosが不正したと断定するつもりはないが、リポジトリのさまざまな状態をあまりに良く記憶していて、内部記憶の diff だけで本当の問題文を逆推定しているレベルなのかもしれない
      そうでなければ、あれほど曖昧な問題記述をあそこまで正確に解釈できる説明がつきにくい
    • 単一ベンチマークでは何の意味もない
      ベンチごとにいつも妙な結果は出るものだ
  • まだ**幻覚率86%**なのが残念だと思う
    比較するとOpusは36%程度だ
    出典は https://artificialanalysis.ai/models?omniscience=omniscience...

    • Grokが**17%**でそれが最低、しかもほとんどのモデルが80%以上というのは妙だ
      質問によっては幻覚はむしろ100%に近いこともあるし、このベンチは直感的にあまり納得できない
    • 何かおかしい、Haikuがそんなに良いはずはない
    • これは各社がそういう挙動を望んでいるというシグナルのように読める
      質問する側は問題を完全には理解していない可能性が高く、そのため結果がどうであれ、とりあえず自信満々の答えを好むのだろう
      目的は技術の実際の能力より、有能に見える印象を売ることにあるように思える
      LLMはプロダクトを壊しかねないのに、億万長者の思考機械が従業員を置き換えられると信じて、労働予算の75%をそこに突っ込めという話なら、どうぞ好きに痛い目を見ればいいとしか言えない
  • このモデルは長期課題に非常に強く、Codexには今やheartbeatsも入っていて継続的に状態確認ができるとのこと
    検証可能な制約があり、数時間かかる難しい問題を任せてみれば、どれほど良いかわかるはずだという
    OpenAIで働いていると明かしている

    • 良い機能に思えるし、早く試してみたい
      最近は他のモデル、とくにOpusが作業途中でしょっちゅう止まるのでうんざりしていた
    • Canvaの社内評価では、GPT-5.5が長期課題型のフロンティアチャレンジを数多く解決し、我々がテストしたAIモデルで初めてというケースも多かった
      リリースおめでとう
    • heartbeatsが正確に何なのか説明が必要だ