4 ポイント 投稿者 GN⁺ 2026-04-24 | 1件のコメント | WhatsAppで共有
  • 複雑な作業を自律的に計画し、ツールを組み合わせて最後まで遂行するエージェント型モデルで、コード作成とデバッグからWeb調査、データ分析、文書・スプレッドシート生成、ソフトウェア操作まで幅広く対応
  • GPT-5.4と同じ per-token latencyを維持しながらも、coding、computer use、知識労働、初期の科学研究で性能が向上し、同じCodexタスクをより少ないトークンで完了して効率も高まった
  • ソフトウェアエンジニアリングでは Terminal-Bench 2.0 82.7%、Expert-SWE 73.1%、SWE-Bench Pro 58.6%を記録し、実装・リファクタリング・デバッグ・テスト・検証や、大規模コードベースの文脈維持で強みを示した
  • 一般業務や研究ワークフローでも 文書・スプレッドシート・スライド生成、画面操作ベースのcomputer use、多段階のデータ分析、仮説検証、結果解釈までつながる流れが強化され、GPT-5.5 Proはより高い正確性と網羅性を狙う
  • 発売前に 強化された安全対策と内部・外部テストを経ており、ChatGPTとCodexでPlus、Pro、Business、Enterpriseを中心に順次展開中で、実務型AIの活用範囲をさらに広げる段階に入ったとみられる

モデル概要と展開範囲

  • GPT-5.5は、より速く意図を理解し、複数段階に絡み合った作業を自律的に計画し、ツールを使って最後までやり切るモデルとして紹介されている
    • コード作成とデバッグ、Web調査、データ分析、文書とスプレッドシート作成、ソフトウェア操作、複数ツールをまたぐ作業を実行できる
    • 各段階を細かく管理するよりも、複雑で整理されていない作業をまとめて任せ、計画・ツール利用・検証・曖昧さへの対処まで続けられるよう設計されている
  • エージェント型タスクでの向上が特に強調されており、coding・computer use・knowledge work・初期の科学研究で高い性能を示す
    • 大規模モデルは遅くなりがちだが、実サービス基準の per-token latency はGPT-5.4と同じに保たれている
    • 同じCodexタスクをより少ないトークンで終えられ、効率も高まっている
  • 発売前には 安全対策 を強化し、内部・外部のred teamテストと高度なcybersecurity・biology能力に対する追加試験、約200の信頼できるパートナーからの初期利用フィードバックを反映した
  • 現在、ChatGPTとCodexで Plus、Pro、Business、Enterprise ユーザー向けに順次展開中で、GPT-5.5 ProはChatGPTのPro・Business・Enterpriseに提供される
    • APIは別途安全要件への対応を進めており、GPT-5.5とGPT-5.5 Proをまもなく提供する予定

ソフトウェアエンジニアリングとエージェント型コーディング

  • OpenAIは agentic AIインフラ を構築中で、この1年でAIがソフトウェアエンジニアリングを大きく加速させてきた
    • GPT-5.5がCodexとChatGPTに入ることで、こうした変化が科学研究や一般的なコンピュータ業務へ広がり始めている
  • Artificial Analysis Coding Index 基準では、競合するfrontier codingモデルに対し半分のコストで最上位クラスの知能を提供する
  • GPT-5.5はOpenAI基準で 最も強力なagentic codingモデル として紹介されている
    • Terminal-Bench 2.0では82.7%を記録し、計画・反復・ツールの組み合わせが必要な複雑なコマンドラインワークフローを評価対象としている
    • SWE-Bench Proでは58.6%を記録し、実際のGitHub issue解決で従来モデルより多くの作業を単一パスでエンドツーエンドに解決した
    • 内部評価のExpert-SWEでもGPT-5.4を上回った
  • 3つのcoding評価全体で GPT-5.4より少ないトークン を使いながら、より高いスコアを出した
  • Codexでの強みは、実装、リファクタリング、デバッグ、テスト、検証全般に表れている
    • 大規模システムの文脈維持、曖昧な障害原因の追跡、ツールによる仮説確認、コードベース全体にまたがる変更反映といった実践的なエンジニアリング行動でより強くなっている

コーディング利用例と初期テスト

  • Artemis IIの実データを活用した WebGL + Viteアプリ の実装プロンプトが例として含まれている
    • NASA/JPL Horizonsベクトルデータを使ってOrion、Moon、Sunの軌道をレンダリングする
    • 可読性のために表示スケールを適用する
  • 初期テスターは、GPT-5.5が システム構造 をよりよく把握すると評価している
    • 何がなぜ失敗しているのか、修正をどこに入れるべきか、コードベースの他の部分にどんな影響が及ぶかを、より正確に見抜く
  • Dan Shipperは、障害発生後の状態を巻き戻して同レベルの再設計を作れるか試し、GPT-5.4は失敗し、GPT-5.5は成功した
  • Pietro Schiranoは、数百件のfrontendとrefactor変更が入ったブランチを、大きく変化したメインブランチへ 約20分で一括マージ した
  • シニアエンジニアのテストでは、GPT-5.4とClaude Opus 4.7より reasoningとautonomy が際立っていた
    • 明示的なプロンプトがなくても問題を先回りして見つけ、テストやレビューの必要性まで見込んだ
    • 協業型markdown editorのcomment system再設計を依頼したところ、12-diffスタックがほぼ完成状態で出てきた
    • 実装修正の必要は予想より少なく、計画に対する信頼度もGPT-5.4より高まった
  • CursorのMichael Truellの引用では、より長く作業を継続し、早期中断せず複雑で長時間実行されるタスクにより適している特性が示された

一般的な知識労働とコンピュータ利用

  • codingで示された強みが 日常的なコンピュータ業務 にもそのまま広がっている
    • 意図をよりよく理解するため、情報探索、重要情報の選別、ツール利用、結果検証、素材を有用な成果物へ変える一連の過程をより自然にこなす
  • CodexでGPT-5.5はGPT-5.4より 文書、スプレッドシート、スライド 生成に強い
    • alphaテスターは、オペレーションズリサーチ、スプレッドシートモデリング、整理されていないビジネス入力を計画に変える作業で、従来モデルより優れていると述べている
  • Codexの computer use 能力と組み合わせると、画面を見て、クリックし、入力し、インターフェースを探索し、複数ツール間を精密に行き来できる
  • OpenAI内部でもすでに実ワークフローに使われており、現在 従業員の85%以上が毎週Codexを利用 している
    • ソフトウェアエンジニアリング、財務、コミュニケーション、マーケティング、データサイエンス、プロダクト管理全般で活用されている
  • コミュニケーションチームは、6か月分のspeaking requestデータを分析して スコアリング・リスクフレームワーク を作成し、低リスク依頼は自動処理し高リスク依頼は人が確認するSlack agentを検証した
  • Financeチームは 24,771件のK-1税務フォーム、計71,637ページをレビューし、個人情報を除外するワークフローによって前年より2週間前倒しした
  • Go-to-Marketチームでは、週次ビジネスレポート生成を自動化して 週あたり5〜10時間 を節約している

ChatGPTにおけるGPT-5.5 ThinkingとGPT-5.5 Pro

  • ChatGPTのGPT-5.5 Thinkingは、より難しい問題により速く答えるよう設計されており、より賢く簡潔な回答によって複雑な業務をより効率的に進められる
    • coding、research、情報の統合と分析、文書中心の作業に強く、特にplugin利用時に有利
  • GPT-5.5 Proは、より難しい作業とより高い品質を狙ったもので、レイテンシが減って実務への適用性が高まる
    • GPT-5.4 Proと比べて、応答がより包括的で、構造が良く、正確で、関連性が高く、有用になった
    • business、legal、education、data scienceで特に強い
  • 専門業務に近いベンチマークでも高い数値を示した
    • GDPval 84.9%、OSWorld-Verified 78.7%、Tau2-bench Telecom 98.0%を記録
    • Tau2-bench Telecomはprompt tuningなしで実行された
    • FinanceAgent 60.0%、internal investment-banking modeling tasks 88.5%、OfficeQA Pro 54.1%もあわせて提示された
  • NVIDIAのJustin Boitanoの引用では、NVIDIA GB200 NVL72システム上で提供され、自然言語プロンプトでend-to-end機能を出荷し、デバッグ時間を数日から数時間へ短縮し、数週間かかる実験を一晩で進める流れが示された

科学研究と技術研究のワークフロー

  • GPT-5.5は科学・技術研究ワークフローでも性能向上を示す
    • 難しい質問に答える水準を超え、アイデア探索、根拠収集、仮説検証、結果解釈、次の実験の決定まで続くループをよりうまく維持する
  • GeneBenchでGPT-5.4より明確な改善を示した
    • geneticsとquantitative biologyの多段階データ分析を対象にした新しい評価
    • 曖昧または誤りを含むデータ、隠れたconfounder、QC失敗、現代的な統計手法の実装と解釈を扱う
    • ここでの作業は、科学の専門家にとっても数日規模のプロジェクトに相当する
  • BixBenchでも、公開スコアのあるモデルの中で先導的な性能を記録
    • 実際のbioinformaticsとデータ分析を反映したベンチマークとして紹介された
    • biomedical researchの最前線でco-scientist水準の加速可能性を示す
  • 内部バージョンのGPT-5.5とcustom harnessは、Ramsey numbersに関する新たな証明を見つけるのにも使われた
    • 新しい証明へのリンク
    • combinatoricsにおける古くからのoff-diagonal Ramsey numbersの漸近的事実に関する証明を見つけ、その後Leanで検証した
    • コードや説明を超えて、中核的な研究分野で有用な数学的論証にも貢献した
  • 初期テスターはGPT-5.5 Proを単発の回答エンジンより研究パートナーに近い形で活用した
    • 原稿を何度も批判的にレビューし、技術的な論証をstress testし、分析を提案し、コード・ノート・PDFの文脈とともに作業した
    • 質問から実験、成果物まで続く流れをよりよく支援する

研究事例

  • Jackson Laboratory for Genomic MedicineのDerya Unutmazは、GPT-5.5 Proで62サンプル、約28,000遺伝子のgene-expressionデータセットを分析
    • 詳細な研究レポートを生成し、結果の要約だけでなく主要な問いと洞察まで明らかにした
    • この作業は、彼のチームが行えば数カ月かかる規模だった
  • Adam Mickiewicz UniversityのBartosz Naskręckiは、Codexで単一プロンプトから11分でalgebraic-geometryアプリを作成
    • 2つのquadratic surfaceの交差を可視化し、結果の曲線をWeierstrass modelへ変換した
    • その後、singularity visualizationをより安定化し、後続作業に再利用できるexact coefficientsまで追加した
    • 専用ツールが必要だったカスタム数学可視化やcomputer-algebraワークフローの実装にもCodexが役立った
  • Credit: Bartosz Naskręcki
  • Axiom BioのBrandon Whiteの引用では、巨大なbiochemical datasetを推論してhuman drug outcomesを予測し、最も難しいdrug discovery評価で意味のある精度向上が現れた

推論インフラと性能最適化

  • GPT-5.4と同じレイテンシでGPT-5.5をサービス提供するには、推論を個別最適化の寄せ集めではなく統合システムとして再設計する必要があった
    • GPT-5.5はNVIDIA GB200およびGB300 NVL72システムを前提に共同設計・学習・サービスされた
  • CodexとGPT-5.5自体が、性能目標の達成に直接貢献した
    • Codexは、アイデアをベンチマーク可能な実装へ素早く移し、アプローチをスケッチし、実験をつなぎ、より深い投資が必要な最適化を見つけるために使われた
    • GPT-5.5は、スタック内部の重要な改善点を見つけて実装するのに役立った
    • 最終的に、モデルが自分自身をサービスするインフラ改善にも貢献した
  • 代表的な改善事例としてload balancingとpartitioning heuristicsを紹介
    • 以前は、accelerator上のリクエストを固定数のchunkに分割し、大きなリクエストと小さなリクエストが同じGPUで動作するようにしていた
    • しかし、静的なchunk数はあらゆるトラフィック形態に最適ではなかった
    • Codexが数週間分のproduction trafficパターンを分析し、作業を最適に分割・平準化するカスタムheuristicアルゴリズムを作成した
    • この作業により、token generation speedが20%以上向上した

サイバーセキュリティとセーフガード

  • 脆弱性の検知とパッチ適用に長けたモデルを世に送り出すことは、チームスポーツに近く、次のサイバー防衛時代に向けてエコシステム全体のレジリエンスが必要
  • frontierモデルのcybersecurity能力はますます強くなっており、この能力は広く行き渡るため、サイバー防衛の加速とエコシステム強化に使われる経路が重要になっている
  • GPT-5.5は、cybersecurityのような難しい問題を解くAIに向かう段階的だが重要な一歩と位置づけられている
    • GPT-5.2の時点で、潜在的なcyber悪用を制限するc yber safeguardsを先行配備した
    • GPT-5.5には潜在的なcyber riskに対する、より厳格なclassifierを配備しており、初期段階では一部ユーザーにとって煩わしく感じられる可能性がある
  • OpenAIは数年にわたり、Preparedness Frameworkの中でcybersecurityを独立したカテゴリとして扱っており、能力向上に合わせて緩和策も継続的に調整してきた
  • 業界先導レベルのsafeguardsを、この水準のcyber capabilityに合わせて配備している
    • GPT-5.2でcyber-specific safeguardを初めて導入し、その後の各展開ごとにテスト・精緻化・拡張を続けてきた
    • GPT-5.5では高リスク活動、機微なcyberリクエスト、反復的な悪用に対する保護をさらに強化した
    • 幅広いアクセスは、モデル安全性、認証済みユーザー、許可されていない利用のモニタリングへの投資によって可能になっている
    • 外部専門家と数か月にわたりrobustnessを開発・試験・改善した
    • 開発者がコードを容易に保護できるようにしつつ、悪意ある行為者が危害を加えやすいcyberワークフローには、より強い制御を設けている
  • 防御目的のアクセス拡大も同時に進めている
    • Trusted Access for Cyberを通じてcyber-permissiveモデルへのアクセスを提供しており、出発点はCodex
    • 特定のtrust signalsを満たした検証済みユーザーには、GPT-5.5の高度なcybersecurity機能を、より少ない制限で提供する
    • critical infrastructure defenseを担う組織は、GPT-5.4-Cyberのようなcyber-permissiveモデルへのアクセスを申請できる
    • 検証済みの防御担当者には、正当なセキュリティ業務向けツールを、より少ない摩擦で提供することが目的
    • 申請リンク: chatgpt.com/cyber
  • 政府パートナーとの協力も含まれる
    • 税務データ保護用のデジタルシステム、電力網、地域社会の上水道のような重要インフラを防御する公共担当者を、高度なAIがどのように支援できるかを共同で探っている
  • GPT-5.5のbiological/chemicalおよびcybersecurity能力は、Preparedness Framework上でHighに分類される
    • Critical水準のcybersecurity capabilityには達していないが、評価とテストではGPT-5.4より一段階高まったcyber能力が確認された
  • リリース前に全体のsafety and governance processを経ている
    • preparedness評価、分野別テスト、高度なbiology・cybersecurityを対象とした新規ターゲット評価、外部専門家との堅牢なテストを含む
    • 詳細はGPT-5.5 system cardで提供されている
  • このアプローチは、より強力なモデル時代に必要なAI resilience戦略の一部
    • 強力なAIは、システム・機関・公共を防御する人々にも提供されるべきであり、信頼ベースのアクセス、能力に比例して強化されるsafeguards、重大な悪用を検知して対応する運用能力が中核的な経路として示されている

利用可能プランと価格

  • 現在、ChatGPTとCodexでGPT-5.5はPlus、Pro、Business、Enterpriseユーザー向けに展開中で、GPT-5.5 ProはChatGPTのPro、Business、Enterpriseで提供される
  • ChatGPTではGPT-5.5 ThinkingがPlus、Pro、Business、Enterpriseで提供される
    • GPT-5.5 Proは、より難しい質問とより高い正確性を狙ったもので、Pro、Business、Enterpriseで利用可能
  • CodexではGPT-5.5がPlus、Pro、Business、Enterprise、Edu、Goプランで提供され、400K context windowを持つ
    • Fast modeも提供され、トークン生成速度は1.5倍速く、コストは2.5倍
  • API開発者向けのgpt-5.5は、Responses APIとChat Completions APIにまもなく提供予定
    • 入力100万トークンあたり5ドル、出力100万トークンあたり30ドル、1M context windowと記載されている
    • BatchとFlexの価格は標準API料金の半額、Priority processingは2.5倍料金で提供される
  • gpt-5.5-proもAPIに投入予定で、より高い正確性を目指す
    • 入力100万トークンあたり30ドル、出力100万トークンあたり180ドルと記載されている
    • 全価格情報はpricing pageにリンクされている
  • GPT-5.5はGPT-5.4より価格は高いが、知能とトークン効率も高い
    • Codexでは、ほとんどのユーザーに対してGPT-5.4より少ないトークンでより良い結果を出せるよう体験を調整している
    • サブスクリプションの各段階を通じて、引き続き十分な利用量を提供する

詳細ベンチマーク

  • Coding

    • SWE-Bench Pro (Public)では、GPT-5.5は58.6%、GPT-5.4は57.7%、Claude Opus 4.7は64.3%、Gemini 3.1 Proは54.2%
    • Terminal-Bench 2.0は、GPT-5.5が82.7%、GPT-5.4が75.1%、Claude Opus 4.7が69.4%、Gemini 3.1 Proが68.5%
    • Expert-SWE (Internal)は、GPT-5.5が73.1%、GPT-5.4が68.5%と示されている
  • 専門業務

    • GDPval (wins or ties)は、GPT-5.5が84.9%、GPT-5.4が83.0%、GPT-5.5 Proが82.3%、GPT-5.4 Proが82.0%、Claude Opus 4.7が80.3%、Gemini 3.1 Proが67.3%
    • FinanceAgent v1.1は、GPT-5.5が60.0%、GPT-5.4が56.0%、GPT-5.4 Proが61.5%、Claude Opus 4.7が64.4%、Gemini 3.1 Proが59.7%
    • Investment Banking Modeling Tasks (Internal)は、GPT-5.5が88.5%、GPT-5.4が87.3%、GPT-5.5 Proが88.6%、GPT-5.4 Proが83.6%
    • OfficeQA Proは、GPT-5.5が54.1%、GPT-5.4が53.2%、Claude Opus 4.7が43.6%、Gemini 3.1 Proが18.1%
  • コンピュータ利用とビジョン

    • OSWorld-Verifiedは、GPT-5.5が78.7%、GPT-5.4が75.0%、Claude Opus 4.7が78.0%
    • MMMU Pro (no tools)は、GPT-5.5とGPT-5.4がともに**81.2%**で、Gemini 3.1 Proは80.5%
    • MMMU Pro (with tools)は、GPT-5.5が83.2%、GPT-5.4が82.1%
  • ツール利用

    • BrowseCompは、GPT-5.5が84.4%、GPT-5.4が82.7%、GPT-5.5 Proが90.1%、GPT-5.4 Proが89.3%、Claude Opus 4.7が79.3%、Gemini 3.1 Proが85.9%
    • MCP Atlasは、GPT-5.5が75.3%、GPT-5.4が70.6%、Claude Opus 4.7が79.1%、Gemini 3.1 Proが78.2%
    • Toolathlonは、GPT-5.5が55.6%、GPT-5.4が54.6%、Gemini 3.1 Proが48.8%
    • Tau2-bench Telecomは、元のプロンプト基準でGPT-5.5が98.0%、GPT-5.4が92.8%
    • MCP Atlasの注記には、Scale AIの2026年4月の最新アップデート以降の結果と記されている
    • Tau2-bench Telecomの注記には、prompt adjustmentなしで評価した結果であり、他研究所のprompt adjustment結果は除外したと明記されている
  • 学術

    • GeneBenchは、GPT-5.5が25.0%、GPT-5.4が19.0%、GPT-5.5 Proが33.2%、GPT-5.4 Proが25.6%
    • FrontierMath Tier 1–3は、GPT-5.5が51.7%、GPT-5.4が47.6%、GPT-5.5 Proが52.4%、GPT-5.4 Proが50.0%、Claude Opus 4.7が43.8%、Gemini 3.1 Proが36.9%
    • FrontierMath Tier 4は、GPT-5.5が35.4%、GPT-5.4が27.1%、GPT-5.5 Proが39.6%、GPT-5.4 Proが38.0%、Claude Opus 4.7が22.9%、Gemini 3.1 Proが16.7%
    • BixBenchは、GPT-5.5が80.5%、GPT-5.4が74.0%
    • GPQA Diamondは、GPT-5.5が93.6%、GPT-5.4が92.8%、GPT-5.4 Proが94.4%、Claude Opus 4.7が94.2%、Gemini 3.1 Proが94.3%
    • Humanity's Last Exam (no tools)は、GPT-5.5が41.4%、GPT-5.4が39.8%、GPT-5.5 Proが43.1%、GPT-5.4 Proが42.7%、Claude Opus 4.7が46.9%、Gemini 3.1 Proが44.4%
    • Humanity's Last Exam (with tools)は、GPT-5.5が52.2%、GPT-5.4が52.1%、GPT-5.5 Proが57.2%、GPT-5.4 Proが58.7%、Claude Opus 4.7が54.7%、Gemini 3.1 Proが51.4%
  • サイバーセキュリティ

    • Capture-the-Flags challenge tasks (Internal)は、GPT-5.5が88.1%、GPT-5.4が83.7%
    • CyberGymは、GPT-5.5が81.8%、GPT-5.4が79.0%、Claude Opus 4.7が73.1%
    • 注記には、system cardに記載された最難関のCTFを拡張し、さらに高難度チャレンジを追加した結果だと記されている
  • 長文コンテキスト

    • Graphwalks BFS 256k f1は、GPT-5.5が73.7%、GPT-5.4が62.5%、Claude Opus 4.7が76.9%
    • Graphwalks BFS 1mil f1は、GPT-5.5が45.4%、GPT-5.4が9.4%、Claude Opus 4.6が41.2%
    • Graphwalks parents 256k f1は、GPT-5.5が90.1%、GPT-5.4が82.8%、Claude Opus 4.7が93.6%
    • Graphwalks parents 1mil f1は、GPT-5.5が58.5%、GPT-5.4が44.4%、Claude Opus 4.6が72.0%
    • OpenAI MRCR v2 8-needleはコンテキスト長ごとに提示されており、4K-8Kが98.1%、8K-16Kが93.0%、16K-32Kが96.5%、32K-64Kが90.0%、64K-128Kが83.1%、128K-256Kが87.5%、256K-512Kが81.5%、512K-1Mが74.0%
    • 同項目でGPT-5.4はそれぞれ97.3%、91.4%、97.2%、90.5%、86.0%、79.3%、57.5%、36.6%
    • 128K-256K区間にはClaude Opus 4.7の59.2%、512K-1M区間にはClaude Opus 4.7の32.2%が記載されている
  • 抽象推論

    • ARC-AGI-1 (Verified)は、GPT-5.5が95.0%、GPT-5.4が93.7%、GPT-5.4 Proが94.5%、Claude Opus 4.7が93.5%、Gemini 3.1 Proが98.0%
    • ARC-AGI-2 (Verified)は、GPT-5.5が85.0%、GPT-5.4が73.3%、GPT-5.4 Proが83.3%、Claude Opus 4.7が75.8%、Gemini 3.1 Proが77.1%
    • GPT系の評価は、reasoning effortをxhighに設定した研究環境で実施されており、一部の場合は本番環境のChatGPTと出力がやや異なる可能性があると明記されている

1件のコメント

 
GN⁺ 2026-04-24
Hacker Newsのコメント
  • NVIDIAでGPT-5.5へのアクセス喪失がまるで手足を失うような感覚だという話は、意図以上にずっと不気味に聞こえる
    これはフロンティアコーディングモデル依存全般に当てはまる話のようで、性能が良くなるほどコーディング時にすぐ頼るようになる
    実際に経験してみると不快な感情が大きい。今では我慢して手でコードを書くより、モデルで一気に処理したほうが10倍くらい速く、自分の役割も変わってしまった
    大量に回せるのはすごいが、トークンが尽きると実質的に仕事も止まる
    Claudeが落ちたときは、無理やりコードを書くより散歩して戻ってくるほうがレバレッジが高い。1時間後にClaudeが復活していれば、LLMが作ったコードを抱えて手動で問題を解こうとして消耗するより、ずっと進捗が出る
    とにかくこういう状態が続くのは少し不安だ

    • 労働理論そのものがLLMでひっくり返るように感じる
      今の市場は、労働が原子化され交渉力が弱いという前提の上に成り立っていて、資本ははるかに大きな交渉力を持ち、労働価格を事実上決めてきた
      だが、その労働をより大きな別の企業が提供し、その労働が伝統的な労働と違って無期限に供給を止められるとしたらどうなるのか
      労働は今や別の形の資本になり、資本は飯を食わなくていい
      自前モデルを使わない会社は、その結果を身をもって学ぶことになりそうだ
    • ライブラリ抽象化を使うのとそれほど違わないとも言える
      もっと速く作れて、自分で書くコードは減り、内部状態管理やメモリ管理はライブラリが代わりにやってくれる
      ポインタやmalloc()を直接触る代わりにライブラリ呼び出しに依存することを不快に思う人もいるだろうが、人によっては低レベルのコンテキストスイッチに落ちず、より高いレベルのアーキテクチャに集中できる解放感がある
    • 自分の墓をあまり早く掘らないために、あえてそう使う方法がある
      あらかじめ完成した答えではなく、独立実行型のCLIやツールを作ってくれとよく頼む
      どうやってそういう結論に達したのかも聞いて、自分の視野を広げようとし、自己メタデータ的な分類方法も説明させる
      特に難しさが概念そのものより参照グラフの大きさにある大規模コードベースでは、これを自分の問題解決力を改善する方向で使おうとしている
    • ローカルモデルが最新のホスト型モデルと適度な差だけを保ち、たとえば12か月遅れ程度にとどまり、ローカルハードウェアにも引き続きアクセスできるなら、リスクは限定的かもしれない
      ホスト型モデルが消えたり高額になったりしても、そのわずかな性能差を失うだけで済むからだ
      もちろんこの2つの前提はどちらもまったく自明ではなく、そうなってほしいと願っている程度ではある
    • NVIDIAとOpenAIの株価上の利害を考えれば、ああいう発言が出るのも不思議ではない
      それに、いまだに生産性10倍のスローガンが繰り返されるのは正直信じがたい
  • GPT-5.5のリリースは今日だが、ChatGPTとCodexへの反映は数時間かけて段階的に行われるとのこと
    サービス安定性のため、前回のリリース同様に段階的に開放し、通常はPro/Enterpriseから始めてPlusへ下りていく
    すぐには見えないかもしれないので後でまた確認してほしいとのこと
    ランダムに待たされるのでイライラするかもしれないが、安定性のためそうしているという
    OpenAIで働いていると明かしている

    • GPT-5.4 API xhighでOpenClawを回してみたが、モデルに仕事をさせることができなかった
      Anthropic OAuthgate以降、代替として本格的に使おうとしたが、速くて安全で無害なサブタスクすら完了できなかった
      会話は「ここでXをやるべきだった」「そうだ、失敗した」「じゃあ今やって」「やるべきだったがやらなかった」という具合に、延々と謝罪を繰り返すだけで終わった
      後でGLM、Kimi、Minimaxが問題なくやってのけたのを見るとさらに呆れ、結局OpenAIはすぐ捨てるしかなかった
    • 公開用のロールアウトダッシュボードがあれば混乱はかなり減るはずだ
      さらに言えば、UI上でモデル自体は存在するがまだ自分のアカウントには開放されていないことを示してほしい
      ETAまで出れば最高だが、ロールアウト中に問題が起きることもあるので予測は難しそうだ
    • リリースおめでとう
      Images 2.0もChatGPT内で一緒に公開されるのか、それとも当面はAPI/Playground専用機能のままなのか気になる
    • Plusユーザーとしては、Codexの使用量上限をどれだけ食うのかわからず、気軽に試すのをためらう
    • GPT-5.5のファインチューニングも近いうちに出るのか気になる
  • まだ公式APIアクセスはないが、最近のOpenAIはOpenClawが使っているCodex APIバックドアを事実上黙認している雰囲気に見える
    https://twitter.com/steipete/status/2046775849769148838 および https://twitter.com/romainhuet/status/2038699202834841962
    そのバックドアAPIにはGPT-5.5も入っている
    そこでペリカンの例を動かしてみた
    https://simonwillison.net/2026/Apr/23/gpt-5-5/#and-some-peli...
    LLM向けの新しいプラグイン https://github.com/simonw/llm-openai-via-codex を使った
    後で reasoning effort をxhighに上げると、ずっと良いペリカンが出てきた
    https://gist.github.com/simonw/a6168e4165a258e4d664aeae8e602...

    • 昨日投稿したローカルモデルのペリカンのほうがこれより見た目が良かった
      それでも今回は脚を組んでいて笑えるけど
    • これは正直かなりひどい
      5.5バージョンまで来て、まだ基本的な自転車フレームひとつまともに描けないのはどうなんだ
      前輪が横を向ける構造ではないのに、絵がそこを合わせられていない
    • デフォルト設定でreasoning tokens 39個しか使わずにあれをやったというのはかなり驚きだ
      reasoning token が正確に何なのかはわからないが、とにかくトークン数が衝撃的に少なく見える
    • こういう直接API利用が規約上許されるのか気になる
      Anthropicはこういう使い方をかなり嫌っていた記憶がある
    • なぜ最近投稿した他のものよりはるかに描写が下手なのか気になる
      昨日投稿したQwenのようなオープンウェイトのローカルモデルですら、もっと良く見えた
  • みんなAnthropicのMythosゲーティングとCyberGym 83%マーケティングばかり話していたが、OpenAIはGPT-5.5をそのまま出してきて、スコアも82%だ
    誰でも触れるという点のほうがずっと重要だ
    攻撃/防御のサイバーセキュリティにいる人なら、誇張された宣伝より、こういう実際に公開されたモデルを自分で触るべきだと思う
    こんなことを言う日が来るとは思わなかったが、今ではOpenAIのほうが再びよりオープンな選択肢に見える

    • 本当のハイプは、AnthropicがMythosを発表した途端、OpenAIが数週間以内に対抗モデルを出し、Samはアクセスも塞がないだろうと皆が悟ったところにあった
      だからセキュリティ業界が恐慌状態になったのは、新しいゼロデイを防ぐ時間が実質2週間あまりしかなく、その後はブラックハットが大量に見つけて悪用するオープンシーズンが始まりうると見たからだ
    • Anthropicと比べれば、OpenAIのほうがもともとずっとオープンだった
      Anthropicは公開モデルを一度も出したことがなく、Claude Codeのソースも自発的に公開したことがなく、トークナイザーも公開していない
    • OpenAIはサイバーセキュリティ質問をすると怒り、政府発行IDのアップロードを要求し、そうしないとこっそり性能の低いモデルにルーティングしているのではないかという気がする
      ドキュメントにも、サイバーセキュリティ関連の作業は自動検知に引っかかるとGPT-5.2にフォールバックされる可能性があると書かれている
      https://developers.openai.com/codex/concepts/cyber-safety
      https://chatgpt.com/cyber
    • 自分はハイプニュースは全部無視している
      Anthropicは自分にはほとんど大げさな売り込みの具現化のように感じる
      以前Cialdiniを読んでから、Anthropic式の演出には飽きた
      一方でOpenAIは非常に賢い。Claudeが注目された後しばらく見出しから消えていたが、今は巨大なユーザーベースのおかげで、Anthropicのリリース周期に合わせるだけで相手を滑稽に見せられる
      Anthropicにとっては、新しいGPTバージョンが出るたびにさらに悲惨になっていきそうで、OpenAIが完全に支配する構図に見える
    • OpenAIもサイバー関連の質問はもっと愚かなモデルに回しているのではないかと思う
  • このページの料金/使用量制限セクションを見るといい
    https://developers.openai.com/codex/pricing?codex-usage-limi...
    5.3、5.4、5.5のLocal Messagesの差を見ればよい
    5.5のほうが効率的で5.4と損益分岐が近い、という主張は読んだが、それでも制限はより厳しくなり価格は上がる流れに見える

    • APIベースではGPT-5.5の価格はGPT-5.4の2倍、GPT-5.1の約4倍、Kimi-2.6の約10倍だ
      Anthropicの件から得た教訓は、開発者はコーディングエージェントにすぐ依存し、しまいには中毒的にすらなるので、小さな改善でもいくらでも金を払うということだったのだろう
  • CodexとGPTで作った3Dダンジョンアリーナのプロトタイプはかなりもっともらしく見える
    Codexがゲームアーキテクチャ、TypeScript/Three.js実装、戦闘システム、敵遭遇、HUDフィードバックを担当し、環境テクスチャはGPTが生成し、キャラクターモデルとアニメーションはサードパーティのアセット生成ツールで作ったとのこと
    見た目が良い理由も、おそらくメッシュをGPT-5.5が直接作ったのではなく別ツールが作ったからだろう
    これを見ると、昔のFlash時代のように、ゲーマーや趣味開発者もゲームコンセプトを素早く作ってすぐWebに公開する時代が来るように思える
    特にThree.jsはゲームエンジンですらないのに、AIでゲームを設計するうえで事実上の中核ツールのように浮上してきている

    • この3年間 Three.jsとAIをずっと試してきたが、5.4では特に大きな飛躍を感じた
      Three.jsだけで見れば最大の単一世代ジャンプで、とくにGLSLシェーダーで顕著だったし、複数ページ/コンポーネントに分かれたシーン構造化も良くなった
      完全なシェーダーをゼロから作るのはまだ難しいが、既存シェーダーを修正する能力はかなり実用的になってきた
      5.2以下では、ひとつの背景キャンバスを複数ルートにまたがって維持するone canvas, multiple pageパターンが本当に苦手だったが、5.4はまだ多少手を引いてやる必要があるとはいえ、リファクタリングや最適化のプロンプトにずっとよく反応する
      5.5が実際どうなのか試すのが楽しみだ
    • Flashのような時代はすでにしばらく前から来ていて、ボトルネックはいつだって創造性だった
    • Three.jsベースのゲームやプロジェクトでLLMの助けをかなり受けてきたし、成果も良かった
      自分が作った風変わりな時計ビジュアライゼーションもかなりの部分でこれに依存していた
      ゲームエンジンではないが、WebでWebGL 3Dをやるなら事実上の標準で、歴史が長いだけに学習データも膨大だ
      LLM以前は、もう少し高水準機能の多いBabylon.jsにより頼っていた
    • 知人がJamboreeを作っている
      以前の名前はSpielwerkで、iOSでゲームを作って共有するアプリだ
      全部Webベースなので共有しやすい
      https://apps.apple.com/uz/app/jamboree-game-maker/id67473110...
    • LLMはまだ空間推論ができない
      GPTでは試していないが、Claudeではどれだけプロンプトエンジニアリングをしてもルービックキューブを解けず、Opus 4.6もパズルの約70%までは合ってもそこで詰まった
      1回の試行に20ドルずつかかるのでコストも厳しい
      もし3次元推論をちゃんとさせられるなら、今解けない数学問題にも同じアプローチを広げられそうだ
      自分のRubik's Cube MCPサーバーを公開して、誰かがプロンプトだけでキューブを解けるか挑戦させてみようかと思っている
  • 今回の発表でベンチマーク以上に興味深かったのは、Codexが数週間分の実トラフィックパターンを解析してGPU活用率を高め、作業分割とバランシングのためのカスタムヒューリスティックアルゴリズムを書いてトークン生成速度を20%以上引き上げた、というくだりだ
    エージェント型LLMがこういう形で計算効率最適化をやってのける領域は影響が大きいのに、ベンチマークより試されにくいように思える
    自分の経験ではこの点はまだOpusのほうがGPT/Codexより上だが、OpenAIはコストと容量の圧力の中でこうした性能最大化による実利を得ているので、今後もこの方向を押し進めるだろう

    • Rustで高性能データ処理をしていて、100倍以上改善しないといけない性能の壁にぶつかった
      昔有名だったIntelのFizzBuzzコードゴルフ最適化を思い出し、gemini proに自分のコードと一緒に「そういう類いの賢い最適化を提案してくれ」と頼んだら、本当に見事な提案が返ってきた
      LLMには毎日のように驚かされる
    • すでにKernelBenchがCUDAカーネル最適化をテストしている
      そして各社も、自社インフラとモデル最適化こそ競争に勝つための中核経路だとみな分かっているのだから、この部分はかなり真剣にやっているはずだ
    • こういう主張はあまりに経験的で再現が難しいのが問題だ
      MMLUのような伝統的ベンチの外へ進むのは歓迎だが、適切な統制実験なしにこういう数値を語ってもあまり役に立たない
  • Mythos vs GPT-5.5を数値で見ると、SWE-bench Proではまだ差が大きいが、それ以外はかなり近いように見える
    SWE-bench Pro 77.8% 対 58.6%
    Terminal-bench-2.0 82.0% 対 82.7%
    GPQA Diamond 94.6% 対 93.6%
    H. Last Exam 56.8% 対 41.4%
    H. Last Exam (tools) 64.7% 対 52.2%
    BrowseComp 86.9% 対 84.4%、Pro基準では90.1%
    OSWorld-Verified 79.6% 対 78.7%
    Mythosの数値の出典は https://www.anthropic.com/glasswing

    • Mythosは実際に使えるときだけ意味がある
      今のOpus 4.7を使うと、自律性が体感でかなりナーフされており、いわゆる安全性のための制約が強い
      だからAnthropicが宣伝するほど実際にすごいのか、自分はあまり確信が持てない
    • Anthropicのリリースページによれば、SWE-benchの暗記をClaudeチームが確認しており、テストが実際に学習データに入っていたという
      ここにある
      https://www.anthropic.com/news/claude-opus-4-7#:~:text=memor...
    • 自分はSWE-bench Verifiedを少し調べてみたが、Mythosの数値にはいくつも疑問が残る
      公式提出物を https://github.com/SWE-bench/experiments/tree/main/evaluatio... で Sonnet 4以降のモデルだけに絞り、500問全体について集計してみると、全モデルを合わせた解決率がちょうど93%だった
      なのにMythosが93.7%を出したというのは、他のどのモデルも解けなかった問題まで解いたという意味で、その問題を実際に見てみるとさらに怪しかった
      残り7%の問題は、テストパッチを事前に見ていなければ解くのがほぼ不可能に見えたし、実際の解法が問題文とあまりに違う方向へ進んでいて、まるで別の問題を解いているようにすら思えた
      Mythosが不正したと断定するつもりはないが、リポジトリのさまざまな状態をあまりに良く記憶していて、内部記憶の diff だけで本当の問題文を逆推定しているレベルなのかもしれない
      そうでなければ、あれほど曖昧な問題記述をあそこまで正確に解釈できる説明がつきにくい
    • 単一ベンチマークでは何の意味もない
      ベンチごとにいつも妙な結果は出るものだ
  • まだ**幻覚率86%**なのが残念だと思う
    比較するとOpusは36%程度だ
    出典は https://artificialanalysis.ai/models?omniscience=omniscience...

    • Grokが**17%**でそれが最低、しかもほとんどのモデルが80%以上というのは妙だ
      質問によっては幻覚はむしろ100%に近いこともあるし、このベンチは直感的にあまり納得できない
    • 何かおかしい、Haikuがそんなに良いはずはない
    • これは各社がそういう挙動を望んでいるというシグナルのように読める
      質問する側は問題を完全には理解していない可能性が高く、そのため結果がどうであれ、とりあえず自信満々の答えを好むのだろう
      目的は技術の実際の能力より、有能に見える印象を売ることにあるように思える
      LLMはプロダクトを壊しかねないのに、億万長者の思考機械が従業員を置き換えられると信じて、労働予算の75%をそこに突っ込めという話なら、どうぞ好きに痛い目を見ればいいとしか言えない
  • このモデルは長期課題に非常に強く、Codexには今やheartbeatsも入っていて継続的に状態確認ができるとのこと
    検証可能な制約があり、数時間かかる難しい問題を任せてみれば、どれほど良いかわかるはずだという
    OpenAIで働いていると明かしている

    • 良い機能に思えるし、早く試してみたい
      最近は他のモデル、とくにOpusが作業途中でしょっちゅう止まるのでうんざりしていた
    • Canvaの社内評価では、GPT-5.5が長期課題型のフロンティアチャレンジを数多く解決し、我々がテストしたAIモデルで初めてというケースも多かった
      リリースおめでとう
    • heartbeatsが正確に何なのか説明が必要だ