AIチャットボットサービスで使用する約7,500トークンのシステムプロンプト(入力)と約100トークンの応答(出力)を基準に、Vertex AIのContext Cachingと今回新たに登場したPriority PayGoのレイテンシ改善効果をベンチマーク
- 4つのシナリオ(Standard/Priority × キャッシュあり/なし)、各100回、合計400回のリクエスト
- モデル: gemini-3-flash-preview
- リクエスト方式: 1秒間隔のstaggered start
主な結果:
- Context Caching: キャッシュの有無にかかわらず平均応答時間はほぼ同一(約3秒)
- Priority PayGo: 非混雑時間帯ではむしろ3〜7%遅い
- 非キャッシュシナリオでもVertex AIが内部的にImplicit Cachingを実行していることを確認
- Thinking Levelによるレイテンシ差が圧倒的: DEFAULT 7.4秒 → LOW 3秒 → MINIMAL 2.6秒
結論: キャッシュや優先順位設定よりも、リクエスト構造そのものを変えるほうがレイテンシ最適化に効果的
まだコメントはありません。