- Prompt CachingはAPI利用を最適化し、プロンプトの特定の接頭辞から処理を再開できるようにする
- 大きなプロンプトを複数のAPI呼び出しで再処理せず再利用できるため、反復作業などで処理時間とコストを大幅に削減する
- 動作原理
- プロンプトPrefixキャッシュ: システムは最近のクエリでプロンプトPrefixがキャッシュされているかを確認する。見つかった場合はキャッシュ済みバージョンを使って処理時間とコストを削減する。見つからない場合はプロンプト全体を処理し、Prefixをキャッシュする。
- ユースケース: 多くの例を含むプロンプト、大量のコンテキストや背景情報、一貫した指示を含む反復作業、長いマルチターン対話で有用
- キャッシュ寿命: キャッシュは5分間有効で、キャッシュされた内容が使用されるたびに更新される
- キャッシュされるプロンプト内容
- ツール、システム、メッセージ(この順序)を含むプロンプト全体を参照する。
cache_controlで指定されたブロックまで含む
- 価格
- Claude 3.5 Sonnet: 基本入力トークン $3 / MTok、キャッシュ作成 $3.75 / MTok、キャッシュ参照 $0.30 / MTok、出力トークン $15 / MTok
- Claude 3 Haiku: 基本入力トークン $0.25 / MTok、キャッシュ作成 $0.30 / MTok、キャッシュ参照 $0.03 / MTok、出力トークン $1.25 / MTok
- Claude 3 Opus(リリース予定): 基本入力トークン $15 / MTok、キャッシュ作成 $18.75 / MTok、キャッシュ参照 $1.50 / MTok、出力トークン $75 / MTok
- 要点
- キャッシュ作成トークンは基本入力トークンより25%高い
- キャッシュ参照トークンは基本入力トークンより90%安い
- キャッシュの制限事項
- キャッシュ可能な最小プロンプト長:
- Claude 3.5 SonnetおよびClaude 3 Opus: 1024トークン
- Claude 3 Haiku: 2048トークン
- 5分のキャッシュTTLがあり、現在"ephemeral"はこの5分の寿命に対応する唯一のサポート対象キャッシュタイプ
- さまざまなユースケース
- 対話型エージェント: 長い指示やアップロードされた文書を含む対話で、コストとレイテンシを削減できる
- コーディングアシスタント: 関連セクションやコードベースの要約版をプロンプト内に維持し、自動補完とコードベースQ&Aの性能を向上させる
- 大規模文書処理: 画像を含む長文形式の資料をプロンプトに含めても、応答遅延なく処理できる
- 詳細な指示セット: 20件以上の多様で高品質な回答例を含めることで、Claudeの応答をさらに細かく調整する
- エージェントのツール利用: 複数のツール呼び出しと反復的なコード変更を含むシナリオで性能を向上できる
- 書籍、論文、文書、ポッドキャスト台本、その他の長文コンテンツとの対話: 文書全体をプロンプトに含め、ユーザーが質問できるようにする
まだコメントはありません。