- Web Search: Web上で最新情報を検索し、引用URLを返す
- File Search: アップロードされたファイル一覧からセマンティック検索/キーワード検索
- Computer Use: コンピュータを操作して作業を実行
- Responses API: 高度な統合応答インターフェース。テキスト/画像入力が可能で、Web/ファイル検索およびCUA機能をすべて利用可能
- Agents SDK: エージェント開発のためのオーケストレーションフレームワーク
- 条件を満たす一部の開発者/企業は、OpenAIとプロンプトを共有してモデル改善に協力できる
- 今年4月末まで
gpt-4.5-preview、gpt-4o、o1 は1日あたり最大100万トークン、gpt-4o-mini、o1-mini、o3-mini は最大1000万トークンまで無料で利用可能
- 対象かどうかはOpenAI開発者ダッシュボードで確認可能
- ChatGPTで最新情報を提供するために、Webから直接情報を検索できる
- Chat Completions APIを通じて、微調整されたモデルと検索ツールを直接利用できる
- Chat Completions APIでのWeb検索の使い方
- モデルは応答前に常にWebで最新情報を検索する
- 必要なときだけWeb検索ツール(
web_search_preview)を使わせたい場合は、Responses APIに切り替える必要がある
- Web検索を利用できるモデル
gpt-4o-search-preview
gpt-4o-mini-search-preview
- モデルが応答を生成する前に、ユーザーのファイルから関連情報を検索できるようにする
- Responses APIで提供され、アップロードされたファイルのナレッジベースからセマンティック検索とキーワード検索によって情報を検索する
- Vector Storeとセマンティック検索の活用
- Vector Storeを作成してファイルをアップロードすると、モデルの基本知識を拡張できる
- OpenAIが管理するツールであり、ユーザーが自分でコードを実装する必要はない
- モデルが必要だと判断すると自動的にツールを呼び出し、ファイルから情報を検索して応答を生成する
- 利用方法
- まずVector Storeでナレッジベースを設定し、ファイルをアップロードする必要がある
- Vector Store設定後、file_searchツールをモデルの利用可能ツール一覧に追加できる
- 現在は一度に1つのVector Storeでしか検索できない(単一のVector Store IDのみ使用可能)
- ユーザーのコンピュータ上で作業を実行できる**Computer-Using Agent(CUA)**モデルをベースにしている
- GPT-4oの視覚処理と高度な推論能力を組み合わせ、コンピュータインターフェースの制御と作業実行が可能
- Responses APIを通じて提供され、Chat Completionsでは使用できない
- 現在はベータ版であり、脆弱性やミスが発生する可能性がある。完全に認証された環境や重要な作業での利用は推奨されない
- 動作方式
- モデルがクリック(x, y)、入力(text) などのコンピュータ操作コマンドを送信
- ユーザーのコードがその操作をコンピュータまたはブラウザ環境で実行し、結果のスクリーンショットを返す
- モデルがスクリーンショットをもとに環境の状態を理解し、次の操作を提案
- 連続ループにより、クリック、入力、スクロールなどさまざまな操作を自動化できる
- 活用例: 航空券予約、製品検索、フォーム入力
- OpenAIで最も進化したモデルインターフェース
- テキストおよび画像入力をサポートし、テキスト出力を生成
- 前回の応答の出力を次の入力として使える状態を保持したインタラクションを提供
- 機能拡張が可能
- 組み込みツールを通じてモデルの機能を拡張できる
- File Search – アップロードされたファイルからセマンティック検索およびキーワード検索が可能
- Web Search – 最新のWeb情報を検索可能
- Computer Use – コンピュータインターフェースを制御し、自動化タスクを実行可能
- Function Calling – 外部システムやデータにアクセス可能
- Python関数の呼び出しや外部システムとの連携が可能
- 複雑な抽象化なしに、シンプルで使いやすいパッケージとしてエージェントベースのAIアプリを開発できる
- 以前の実験的プラットフォームSwarmの本番レベルへのアップグレード版
- 主要コンポーネント(Primitive):
- Agents – 命令とツールを備えたLLMベースのエージェント
- Handoffs – 特定の作業を別のエージェントに委任
- Guardrails – エージェントの入力値の検証とフィルタリング
- Python統合と強力な機能
- Pythonと併用することで、強力なツール間の関係設定や複雑なワークフローを実装できる
- 可視化とデバッグのためのTracing機能を含む
- 評価、デバッグ、モデルのファインチューニングまでサポート
- Agents SDKの主な特徴
- 設計原則
- 機能は十分に強力でありながら、学ぶことは少なく、素早く慣れることができる
- デフォルトの状態で優れた性能を提供し、必要に応じて詳細設定が可能
- 基本機能
- Agent Loop : 組み込みループにより、ツール呼び出し → 結果処理 → LLM応答生成 → 終了まで自動処理
- Python-first設計 : Pythonの言語機能をそのまま使ってエージェント接続とオーケストレーションが可能
- Handoffs : 複数エージェント間での作業委任と調整が可能
- Guardrails : 入力値の検証と並列チェックを実行し、エラー発生時は早期終了が可能
- Function Tools : Python関数を自動でツール化 → 自動スキーマ生成と検証を実行
- Tracing : 組み込みのトレーシング機能により、ワークフローの可視化、デバッグ、評価、改善が可能
まだコメントはありません。