Vertex AI Context Caching + Priority PayGo レイテンシベンチマーク（400回、Gemini 3 Flash）

(cloudturing.com)

1 ポイント投稿者 calmlake79 2026-02-12 | まだコメントはありません。 | WhatsAppで共有

AIチャットボットサービスで使用する約7,500トークンのシステムプロンプト（入力）と約100トークンの応答（出力）を基準に、Vertex AIのContext Cachingと今回新たに登場したPriority PayGoのレイテンシ改善効果をベンチマーク

4つのシナリオ（Standard/Priority × キャッシュあり/なし）、各100回、合計400回のリクエスト
モデル: gemini-3-flash-preview
リクエスト方式: 1秒間隔のstaggered start

主な結果:

Context Caching: キャッシュの有無にかかわらず平均応答時間はほぼ同一（約3秒）
Priority PayGo: 非混雑時間帯ではむしろ3〜7%遅い
非キャッシュシナリオでもVertex AIが内部的にImplicit Cachingを実行していることを確認
Thinking Levelによるレイテンシ差が圧倒的: DEFAULT 7.4秒 → LOW 3秒 → MINIMAL 2.6秒

結論: キャッシュや優先順位設定よりも、リクエスト構造そのものを変えるほうがレイテンシ最適化に効果的

まだコメントはありません。

まだコメントはありません。