CloudflareのAIプラットフォーム: エージェント向けの推論レイヤー

(blog.cloudflare.com)

2 ポイント投稿者 GN⁺ 13 일 전 | 1件のコメント | WhatsAppで共有

さまざまなモデルとプロバイダーを統合し、エージェント型アプリケーションの複雑さを減らす統合推論レイヤーを構築
AI GatewayとWorkers AIにより、70以上のモデルと12以上のプロバイダーを単一のAPIで呼び出せ、コストと利用量を一元管理
カスタムモデルを直接デプロイできるよう、ReplicateのCog技術を活用してコンテナベースのモデル実行をサポート
世界330都市のインフラを活用してレイテンシを最小化し、障害発生時は自動ルーティングで安定した推論を保証
ReplicateチームがCloudflareに加わり、モデルホスティングとデプロイを完全統合し、エージェント開発のための単一プラットフォームへ拡張中

Cloudflare AI Platform 概要

AIモデルの急速な変化とプロバイダー間の違いにより、複数モデルを組み合わせて使うエージェント型アプリケーションの複雑さが増している
- たとえばカスタマーサポートエージェントでは、メッセージ分類に高速モデル、計画立案に大規模モデル、実行に軽量モデルをそれぞれ使う
- 単一プロバイダーに依存せず、コスト・信頼性・レイテンシを統合管理する必要がある
CloudflareはAI GatewayとWorkers AIを基盤に、すべてのモデルを単一APIで呼び出せる統合推論レイヤーを構築した
- 最近ではダッシュボード刷新、デフォルトゲートウェイの自動設定、アップストリーム障害時の自動リトライ、きめ細かなログ制御機能を追加

ひとつのカタログ、ひとつの統合エンドポイント

**AI.run()**バインディングにより、Cloudflare Workersからサードパーティモデル（OpenAI、Anthropicなど）を直接呼び出せる
- Cloudflareホスティングモデルからサードパーティモデルへ切り替える際は、コードを1行修正するだけでよい
- REST API対応もまもなく提供予定で、あらゆる環境からモデルカタログ全体にアクセス可能
70以上のモデル、12以上のプロバイダーを単一APIと単一課金単位で利用可能
- 主なプロバイダー: Alibaba Cloud, AssemblyAI, Bytedance, Google, InWorld, MiniMax, OpenAI, Pixverse, Recraft, Runway, Vidu
- 画像・動画・音声モデルを含め、マルチモーダルアプリケーションを構築できる
すべてのモデル呼び出しが単一APIに統合され、AI利用量とコストを一元管理できる
- 平均すると企業は3.5個のモデルを複数プロバイダーから呼び出しているが、AI Gatewayではこれを単一ダッシュボードで追跡可能
- リクエスト時にカスタムメタデータを含めることで、顧客別・ワークフロー別のコスト分析が可能

ユーザーモデルの直接デプロイ（Bring Your Own Model）

AI Gatewayはすべてのプロバイダーのモデルを統合提供する一方、ユーザーデータで微調整したモデルを直接デプロイできるよう準備を進めている
- 現在はエンタープライズ顧客が専用インスタンスでカスタムモデルを実行しており、今後は一般ユーザーにも拡大予定
CloudflareはReplicateのCog技術を使って機械学習モデルをコンテナ化する
- cog.yamlファイルに依存関係を定義し、predict.pyファイルに推論コードを書けば自動でパッケージ化される
- CogはCUDA、Pythonバージョン、重みの読み込みなど複雑な設定を抽象化する
cog buildコマンドでコンテナイメージをビルドしてWorkers AIにアップロードすると、Cloudflareがデプロイと提供を行う
- 今後はwranglerコマンド、GPUスナップショットベースの高速コールドスタート、顧客向けAPIの提供を予定
- 社内および一部外部顧客とテスト中で、誰でも独自モデルをWorkers AIで使えるよう拡大する計画

ファーストトークンまでの速度最適化

AI Gateway + Workers AIの組み合わせは、リアルタイム応答が重要なライブエージェントに特に有利
- 推論全体に3秒かかっても、最初のトークンが50ms早く届けば、ユーザーの体感速度は向上する
Cloudflareは世界330都市のデータセンターを通じて、ユーザーと推論エンドポイント間のネットワーク遅延を最小化する
Workers AIはKimi K2.5やリアルタイム音声モデルなど、エージェント特化のオープンソースモデルをホスティング
- AI Gateway経由で呼び出すと、コードと推論が同一ネットワーク上で実行され、最小レイテンシを実現する

自動フェイルオーバーによる信頼性

エージェントのワークフローは段階間の依存性が高く、推論の安定性が重要
- AI Gatewayは、同じモデルが複数プロバイダーに存在する場合、1社で障害が起きると自動的に別プロバイダーへルーティングする
- 開発者が個別に障害処理ロジックを書く必要はない
Agents SDKを使う長時間実行型エージェントでは、ストリーミング推論を接続断があっても復元可能
- AI Gatewayがストリーミング応答を独立してバッファリングするため、中断時も再接続後に同じ応答を再利用できる
- 重複課金なしで同じトークンを復元でき、SDKのチェックポイント機能と組み合わせれば、ユーザーに中断を意識させない

Replicate統合

ReplicateチームがCloudflare AI Platformチームに加わり、完全統合を進めている
- ReplicateのすべてのモデルをAI Gatewayへ移管し、ホスティングモデルをCloudflareインフラ上へ再プラットフォーム化
- ユーザーは既存のReplicateモデルをAI Gatewayから呼び出すことも、ReplicateにデプロイしたモデルをWorkers AIでホスティングすることも可能

はじめに

開発者はAI GatewayドキュメントまたはWorkers AIドキュメントから始められる
Agents SDKを通じてCloudflare上でエージェントを構築できる

Cloudflareの役割

Cloudflareはコネクティビティ中心のクラウド(connectivity cloud)として、企業ネットワークの保護、大規模アプリケーションの構築、Webパフォーマンスの高速化、DDoS防御およびZero Trustセキュリティを支援
無料アプリ1.1.1.1により、より高速で安全なインターネット利用が可能
Cloudflareの使命はより良いインターネットを構築することであり、関連情報や採用情報は公式Webサイトで確認できる

1件のコメント

GN⁺ 13 일 전

Hacker Newsのコメント

結局これは openrouter に Cloudflare Argo networking を載せたようなものに見える
Replicate の買収を生かして、もっと面白いものを作れそう
application-specific RL はどんどん良くなっているが、これを スケーラブルにデプロイ する方法が不足している
Fireworks のようなところも LoRA をスケール配備すると言っているが、実際にはうまくいかない
なので今は、自分のアプリのベース負荷をガレージにある複数台の 3090 で自前ホスティングしている。ばかげてはいるが、月に 1,000 ドル節約できている
- どんなモデルを動かしていて、規模を拡張する場合に 3090 が何台必要になるのか気になる
これはかなり便利そう。Cloudflare は良いツールをうまく集めている
特に D2 は事実上唯一の sqlite-as-a-service で、安定性も良く、無料プランの上限も十分大きい
- ドキュメントやマーケティングでは「ユーザーごと、テナントごとの DB」のような使い方を強調しているが、実際には Workers と一緒に使いにくい
  新しい DB をバインドするには Worker を再デプロイする必要があり、事実上不可能だ
- 自分たちの経験では D1 の安定性 は良くなかった
  内部ネットワーク層でクエリが数秒、ひどいと数十秒止まる
  一部のクエリは observability ダッシュボード にも現れないので、自前でタイムアウト検知を入れないと問題に気づけない
  トランザクションもサポートしておらず、issue スレッドでは PM が実装予定はないと明言している
  データ整合性を保証するには Durable Object を使う必要があるが、それにはまた別のコストとトレードオフがある
  アイデアは良いが、本番用途としては信頼しにくい。趣味プロジェクトには良い
- D1-R2 の バックアップシステム を Cloudflare が標準提供してくれるとよいのだが
  今は Worker でカスタムコードを書くしかない
- D1 の 10GB 制限 は小さすぎる。おもちゃレベルのプロジェクト以外では厳しいと思う
- REST API はまもなく出るらしいが、Cloudflare lock-in を誘導する設計に見える
  OpenRouter を作ると言いながら独自ランタイムのバインディングしかサポートしないのは理解しづらい
Workers AI モデル一覧と
AI モデルカタログではモデル構成が異なる
「workers-ai/*」名前空間にはずっと少ないモデルしかない。意図したものなのか気になる
- たとえば「workers-ai/@cf/google/gemma-4-26b-a4b-it」や
  「workers-ai/@cf/nvidia/nemotron-3-120b-a12b」のようなモデルは
  gateway.ai.cloudflare.com の /models エンドポイントには存在しない。だが、ホスト型モデルとしては存在している
自分は openrouter を Cloudflare Workers でうまく使っている
モデルがオフラインのときの cascading と waterfalling もずっと優秀だ
V1 ではまだそれができないようだ
openrouter のあらゆる点が気に入っていて、ほとんどファンみたいなものだ
推論(inference) 層 の問題は急速に解決されつつある
次に難しいのは governance 層、つまりエージェントが何をできるのか、そしてその証明だ
Cloudflare もこの点を考えているのか気になる
- zero-trust ベースの自動認証システム があるとよい
  各エージェントが RBAC 資格情報を提出して権限を得る構造を想像している
Replicate の買収がついに 成果を出している様子 で見ていて良い
モデルページに 価格情報 が見当たらない
直接プロバイダーに支払うよりどれくらい高いのか気になる
Cloudflare は原価で提供しているのだろうか?
また、zero data retention がデフォルトではなく、一部のプロバイダーではそもそもサポートされていない
OpenAI と Anthropic スタイルの completions を両方返せるとよいのだが
- Cloudflare のエンジニアです。まもなく 価格情報をドキュメントとダッシュボード に追加する予定です
  現在はプロバイダー料金と同額で、unified billing credits を通じて少額の処理手数料が加わります
  OpenAI/Anthropic スタイルの completions もまもなく対応予定です
  unified billing の説明リンク
- Workers AI の価格情報はこちらにあります
結局これは openrouter に類似したサービス に見える
- そう。ただし モデルの選択肢は狭い。自分でモデルを持ち込む場合は別だが
- そこに Argo networking が追加された形だ
かなり大きな発表だ。AWS Bedrock の代替 として十分競争力がありそう
Anthropic や AWS よりも稼働率(uptime) が高い可能性すらある

CloudflareのAIプラットフォーム: エージェント向けの推論レイヤー

Cloudflare AI Platform 概要

ひとつのカタログ、ひとつの統合エンドポイント

ユーザーモデルの直接デプロイ（Bring Your Own Model）

ファーストトークンまでの速度最適化

自動フェイルオーバーによる信頼性

Agents SDKを使う長時間実行型エージェントでは、ストリーミング推論を接続断があっても復元可能

Replicate統合

はじめに

Cloudflareの役割

関連記事

1件のコメント

Hacker Newsのコメント