ChatGPT内の新しいAppとApps SDK
- ChatGPT内で対話型アプリを利用できる機能が公開された
- 新しいアプリは会話の流れの中で自然に動作するよう設計されており、ユーザーが必要とするときに自動で提案される
- 例: 「Spotify、今週末のパーティー向けプレイリストを作って」→ アプリが自動実行され、コンテキストに基づく結果を提供
- 不動産に関する会話中にはZillowアプリを提案し、予算に合った物件マップをすぐ表示
- Canvaを通じて会話中に作成したアウトラインをスライドに変換
- Courseraの講義を受けながらChatGPTに補足説明を依頼
- アプリは自然言語コマンドと視覚的インターフェースを組み合わせ、従来のWebアプリより直感的な利用体験を提供
- Booking.com, Canva, Coursera, Figma, Expedia, Spotify, Zillow などのパートナーアプリが最初の提供対象
- 年内に11個のアプリが追加予定: Doordash, Khan Academy, Instacart, Peloton, OpenTable, target, Uber,...
- アプリの提出と審査手続きは今年末に開始され、ChatGPT Business・Enterprise・Edu版にも順次導入予定
- アプリディレクトリが新設され、ユーザーはアプリを閲覧・検索できるほか、デザインと機能性に優れたアプリは会話内での推薦や上位表示の対象となる
-
Apps SDK
- 開発者はApps SDKプレビュー版を使ってアプリを直接作成・テストできる
- SDKはModel Context Protocol(MCP) を拡張した構造で、アプリのロジックとインターフェースの両方を定義できる
- SDKはオープンソースとして公開され、ChatGPT以外のプラットフォームでも同一標準で実行可能
- 開発者は既存のバックエンドと直接連携し、ログインや有料機能へのアクセスをサポートできる
- 年内にChatGPT内のアプリ収益化モデルおよびAgentic Commerce Protocolベースの即時決済機能がサポートされる予定
- これによりChatGPTは単なる対話型アシスタントを超え、アプリエコシステムと相互作用する統合プラットフォームへ進化する見込み
AgentKit公開 – エージェントの開発・配備・最適化のための完全なツールセット
- AgentKitはResponses APIとAgents SDKの後継ツールであり、エージェント構築プロセスを簡素化し信頼性を高める統合プラットフォーム
- 従来はコネクタ、評価パイプライン、プロンプト調整、フロントエンド構築などを個別に処理する必要があったが、今後はこれらを1つの環境で統合管理できる
-
Agent Builder – 視覚的ワークフロー設計ツール
- Agent Builderはドラッグ&ドロップ方式のビジュアルキャンバスでエージェントロジックを構成し、バージョン管理できる環境を提供
- プレビュー実行、インライン評価設定、カスタムガードレール(Guardrails) 設定など、高速な反復開発に最適化
- Rampはこのツールにより数か月かかっていた複雑なオーケストレーションを数時間で完成させ、開発サイクルを70%短縮したと明らかにした
- 日本のLY Corporationも2時間以内に最初のマルチエージェントワークフローを構築
-
Guardrails – 安全なエージェント保護
- Guardrailsはオープンソースの安全レイヤーで、PIIマスキング・脱獄検知・異常応答の遮断機能を提供
- PythonおよびJavaScript向けGuardrailsライブラリにより、単独実行またはAgent Builder内での統合利用が可能
-
Connector Registry – データ統合管理
- Connector Registryは複数のワークスペースと組織間のデータ接続を中央で管理する統合管理パネル
- Dropbox, Google Drive, SharePoint, Microsoft Teams などの標準コネクタとサードパーティMCP対応を含む
- 管理者はGlobal Admin Consoleを通じてドメイン、SSO、API組織を統合管理でき、これはConnector Registry有効化の必須条件
-
ChatKit – 対話型UI内蔵ツールキット
- ChatKitはエージェント用のチャットUIを簡単に製品へ埋め込めるツールキット
- ストリーミング応答処理、会話スレッド管理、モデルの思考過程表示などを自動でサポート
- Webまたはアプリに直接組み込め、ブランドデザインに合わせたテーマのカスタマイズも可能
- HubSpotのカスタマーサポートエージェントなど、さまざまなナレッジアシスタント・オンボーディングガイド・研究支援シナリオで活用中
-
Evals – 性能測定機能を強化
- 信頼性の高いエージェント構築のため、Evalsに次の4つの新機能が追加された
- Datasets: 自動採点器と人間の注釈により評価セットを迅速に構築・拡張可能
- Trace grading: ワークフロー全体の実行を評価し、弱点を自動検出
- Automated prompt optimization: 評価結果に基づく自動プロンプト改善
- Third-party model support: 外部モデルも評価可能にする対応
-
強化されたファインチューニング(Reinforcement Fine-Tuning)
- RFTは開発者がOpenAI推論モデルを特定目的に合わせて調整できるようにする機能
- o4-mini で一般提供中であり、GPT-5向けRFTはプライベートベータ段階で数十社がテスト中
- 新しいベータ機能
- Custom tool calls: モデルが適切なツールを適切なタイミングで呼び出すよう訓練
- Custom graders: 特定ユースケース向けのカスタム評価基準を設定
- ChatKitとEvalsは本日からすべての開発者に一般提供。Agent BuilderとConnector Registryはベータ段階で順次提供され、標準APIモデル料金プラン内に含まれる
- まもなくWorkflows APIおよびChatGPT内のエージェント配備オプションも追加予定
Codex正式リリース – 開発チーム向け統合コードエージェントの拡張
- OpenAIはクラウドベースのコードエージェントプラットフォームCodexの正式リリースを発表し、Slack統合、Codex SDK、管理者ツールという3つの中核機能を追加
- CodexはGPT-5-Codexモデルをベースに、IDE・CLI・クラウド環境で統合的に動作
- リリース後、日次使用量は8月比で10倍増、3週間で40兆トークンを処理し、最も急成長したモデルの1つと評価されている
- OpenAI社内でも全社エンジニアの70%以上がCodexを活用し、週次PRマージ量が70%増加、コードレビューの大半をCodexが自動実行
-
Slack統合
- チームチャンネルで
@Codex をタグ付けすると、Codexが会話コンテキストを自動収集し、適切な環境を選んで応答を提供
- 成果物はCodex Cloudリンクで接続され、変更のマージ・反復修正・ローカルダウンロードが可能
- Slack統合により、協調型開発環境でコードレビュー、自動修正、ビルド実行依頼を自然に行える
-
Codex SDK
- Codex SDKはCodex CLIのオープンソースエージェント実装を外部アプリケーションでも同様に活用できるようにする開発キット
- SDKはまずTypeScript向けに提供され、今後ほかの言語にも対応予定
- 主な機能
- 構造化出力でエージェント応答をパース
- セッション再開のためのコンテキスト管理を内蔵
- GitHub Action統合によりCI/CDパイプラインの自動化を支援
- シェル環境では
codex exec コマンドで直接実行可能
- InstacartはSDKを自社プラットフォームOliveと統合し、エンドツーエンドの自動開発環境を実装、技術的負債の削減とコード品質向上の効果を確認した
-
管理機能の強化
- 環境制御および削除機能により、機密データ管理と不要な環境整理が可能
- CLI・IDE・Web全体でのCodex利用量とコードレビュー品質を分析するダッシュボードを提供
- 管理者はCodexのローカル利用ポリシーと設定を中央制御でき、大規模組織の運用に適している
- Cisco はCodexを活用して複雑なPRレビュー時間を最大50%短縮し、エンジニアがより戦略的な作業に集中できるよう支援
- Slack統合とCodex SDKはChatGPT Plus, Pro, Business, Edu, Enterprise プランで即時利用可能
- 10月20日から Codex Cloudの作業量が利用量計算に含まれる予定
- Plusプラン: 5時間あたり約30〜150回のローカルメッセージまたは5〜40件のクラウド作業が可能
- Proプラン: 5時間あたり約300〜1,500回のローカルメッセージまたは50〜400件のクラウド作業が可能
- 上限超過時はCodexの利用が一時停止され、使用量がリセットされると再利用可能
- Code Reviewは当面利用量に含まれない
- GitHubで
@codex review タグを使用するか、自動レビュー機能を有効化した場合のみCode Review利用量として集計される
Soraを活用した動画生成API公開
- SoraはOpenAIの次世代生成メディアモデルで、音声を含む写実的でダイナミックな動画を生成する
- マルチモーダル拡散(multi-modal diffusion) 研究を基盤に開発され、3D空間認識、カメラ移動、物理的動作の一貫性を学習している
- 開発者はこれによりテキスト→動画または画像→動画の形でコンテンツを自動生成できる
- 新たに公開されたVideo APIは次の5つの主要機能エンドポイントで構成される
- Create video: テキストプロンプトまたは既存映像を基に新しいレンダリングジョブを作成
- Get video status: レンダリング進行状況を確認
- Download video: 完了したMP4動画をダウンロード
- List videos: 生成済み動画の一覧管理とページング対応
- Delete videos: ストレージから特定の動画を削除
- APIを通じて動画生成・管理・拡張・リミックス作業をプログラム方式で自動化できる
-
モデルの種類
-
Sora 2 – 高速な反復と実験向け
- 速度と柔軟性重視のモデルで、コンセプトテストやラフカット制作に適している
- 短時間で結果を得られるため、ソーシャルメディア向けコンテンツやプロトタイプ動画制作に活用できる
- 完璧な品質よりもアイデア探索と視覚的方向性の確認に重点を置く
-
Sora 2 Pro – 高品質制作向け
- シネマティック水準の完成度を目指して設計されたモデル
- レンダリング速度は遅くコストも高いが、動画の安定性とディテールが大幅に向上する
- 高解像度のマーケティング動画、ブランド資産、映画スタイルのシーン制作などに適している
GPT-5 ProをAPIで利用可能
- GPT-5 ProはOpenAI最高水準の推論(reasoning)モデルで、より精緻で正確な応答を生成するためにより多くの計算資源を使用
- 通常のGPT-5より遅いが、複雑な問題解決能力と一貫した品質を提供
- Responses API専用モデルであり、マルチターン対話リクエスト処理と高度なAPI機能をサポートし、
reasoning.effort: high モードのみサポート
- Code Interpreterおよびリアルタイムストリーミングには非対応
- 複雑なリクエストは数分単位の処理時間を要する場合があり、長時間実行時はBackground Modeの使用を推奨
- コンテキストウィンドウ400,000トークン、最大出力272,000トークン、Knowledge Cutoff 2024年9月30日
- 課金(Pricing): 100万トークンあたり
- 入力(Input): $15.00 (画像入力を含む)
- 出力(Output): $120.00
低価格な音声サービス向けGPT Realtime Miniモデル
- GPT-Realtime-Miniはリアルタイム会話モデルの低コスト・高速版で、テキスト・画像・音声入力をサポートし、テキストおよび音声出力を生成
- WebRTC、WebSocket、SIP接続を通じてリアルタイムの音声・テキスト応答が可能で、gpt-realtime比で6倍以上安価に運用できる
- コンテキストウィンドウ32,000トークン、最大出力4,096トークン、Knowledge Cutoff 2023年10月1日
- 課金(Pricing): 100万トークンあたり
- テキストトークン
- 入力(Input): $0.60
- キャッシュ済み入力(Cached input): $0.06
- 出力(Output): $2.40
- 既存モデルとの比較
- 入力: gpt-realtime: $4 , GPT-5: $1.25, gpt-realtime-mini: $0.60 (最も安価)
- 出力: gpt-realtime: $16 , GPT-5: $10, gpt-realtime-mini: $2.4 (最も安価)
- 音声トークン
- 入力(Input): $10
- キャッシュ済み入力(Cached input): $0.3
- 出力: $20
- 画像トークン
- 入力: $0.8
- キャッシュ済み入力: $0.08
GPT Image 1 Miniモデル
- GPT-Image-1-MiniはGPT Image 1の低コスト版で、テキストと画像を入力として受け取り、画像出力を生成するマルチモーダルモデル
- 高品質よりも効率性と低コストに重点を置き、大量の画像生成やビジュアルプロトタイピングに適している
- テキストおよび画像入力に対応し、出力は画像専用
- 速度は遅いが、性能に対するコスト効率が高い
- 課金(Pricing): 100万トークンあたり
- テキストトークン
- 入力(Input): $2.00
- キャッシュ済み入力(Cached input): $0.20
- 出力(Output): $8.00
- 既存モデルとの比較
- 入力: GPT Image 1: $5.00, GPT Image 1 Mini: $2.00 (約60%削減)
- 出力: GPT Image 1: $20.00, GPT Image 1 Mini: $8.00 (約60%削減)
- 画像トークン
- 入力(Input): $2.50
- キャッシュ済み入力(Cached input): $0.25
- 出力(Output): $8.00
- 画像生成 (1枚あたり)
- Low品質
- 1024×1024: $0.005
- 1024×1536: $0.006
- 1536×1024: $0.006
- Medium品質
- 1024×1024: $0.011
- 1024×1536: $0.015
- 1536×1024: $0.015
1件のコメント
HackerNewsもそうですが、思ったよりかなり静かですね。小出しにしながら継続的に発表・リリースしているからでしょうか。