CloudflareのAIプラットフォーム: エージェント向けの推論レイヤー
(blog.cloudflare.com)- さまざまなモデルとプロバイダーを統合し、エージェント型アプリケーションの複雑さを減らす統合推論レイヤーを構築
- AI GatewayとWorkers AIにより、70以上のモデルと12以上のプロバイダーを単一のAPIで呼び出せ、コストと利用量を一元管理
- カスタムモデルを直接デプロイできるよう、ReplicateのCog技術を活用してコンテナベースのモデル実行をサポート
- 世界330都市のインフラを活用してレイテンシを最小化し、障害発生時は自動ルーティングで安定した推論を保証
- ReplicateチームがCloudflareに加わり、モデルホスティングとデプロイを完全統合し、エージェント開発のための単一プラットフォームへ拡張中
Cloudflare AI Platform 概要
- AIモデルの急速な変化とプロバイダー間の違いにより、複数モデルを組み合わせて使うエージェント型アプリケーションの複雑さが増している
- たとえばカスタマーサポートエージェントでは、メッセージ分類に高速モデル、計画立案に大規模モデル、実行に軽量モデルをそれぞれ使う
- 単一プロバイダーに依存せず、コスト・信頼性・レイテンシを統合管理する必要がある
- CloudflareはAI GatewayとWorkers AIを基盤に、すべてのモデルを単一APIで呼び出せる統合推論レイヤーを構築した
- 最近ではダッシュボード刷新、デフォルトゲートウェイの自動設定、アップストリーム障害時の自動リトライ、きめ細かなログ制御機能を追加
ひとつのカタログ、ひとつの統合エンドポイント
- **AI.run()**バインディングにより、Cloudflare Workersからサードパーティモデル(OpenAI、Anthropicなど)を直接呼び出せる
- Cloudflareホスティングモデルからサードパーティモデルへ切り替える際は、コードを1行修正するだけでよい
- REST API対応もまもなく提供予定で、あらゆる環境からモデルカタログ全体にアクセス可能
- 70以上のモデル、12以上のプロバイダーを単一APIと単一課金単位で利用可能
- 主なプロバイダー: Alibaba Cloud, AssemblyAI, Bytedance, Google, InWorld, MiniMax, OpenAI, Pixverse, Recraft, Runway, Vidu
- 画像・動画・音声モデルを含め、マルチモーダルアプリケーションを構築できる
- すべてのモデル呼び出しが単一APIに統合され、AI利用量とコストを一元管理できる
- 平均すると企業は3.5個のモデルを複数プロバイダーから呼び出しているが、AI Gatewayではこれを単一ダッシュボードで追跡可能
- リクエスト時にカスタムメタデータを含めることで、顧客別・ワークフロー別のコスト分析が可能
ユーザーモデルの直接デプロイ(Bring Your Own Model)
- AI Gatewayはすべてのプロバイダーのモデルを統合提供する一方、ユーザーデータで微調整したモデルを直接デプロイできるよう準備を進めている
- 現在はエンタープライズ顧客が専用インスタンスでカスタムモデルを実行しており、今後は一般ユーザーにも拡大予定
- CloudflareはReplicateのCog技術を使って機械学習モデルをコンテナ化する
cog.yamlファイルに依存関係を定義し、predict.pyファイルに推論コードを書けば自動でパッケージ化される- CogはCUDA、Pythonバージョン、重みの読み込みなど複雑な設定を抽象化する
cog buildコマンドでコンテナイメージをビルドしてWorkers AIにアップロードすると、Cloudflareがデプロイと提供を行う- 今後はwranglerコマンド、GPUスナップショットベースの高速コールドスタート、顧客向けAPIの提供を予定
- 社内および一部外部顧客とテスト中で、誰でも独自モデルをWorkers AIで使えるよう拡大する計画
ファーストトークンまでの速度最適化
- AI Gateway + Workers AIの組み合わせは、リアルタイム応答が重要なライブエージェントに特に有利
- 推論全体に3秒かかっても、最初のトークンが50ms早く届けば、ユーザーの体感速度は向上する
- Cloudflareは世界330都市のデータセンターを通じて、ユーザーと推論エンドポイント間のネットワーク遅延を最小化する
- Workers AIはKimi K2.5やリアルタイム音声モデルなど、エージェント特化のオープンソースモデルをホスティング
- AI Gateway経由で呼び出すと、コードと推論が同一ネットワーク上で実行され、最小レイテンシを実現する
自動フェイルオーバーによる信頼性
- エージェントのワークフローは段階間の依存性が高く、推論の安定性が重要
- AI Gatewayは、同じモデルが複数プロバイダーに存在する場合、1社で障害が起きると自動的に別プロバイダーへルーティングする
- 開発者が個別に障害処理ロジックを書く必要はない
-
Agents SDKを使う長時間実行型エージェントでは、ストリーミング推論を接続断があっても復元可能
- AI Gatewayがストリーミング応答を独立してバッファリングするため、中断時も再接続後に同じ応答を再利用できる
- 重複課金なしで同じトークンを復元でき、SDKのチェックポイント機能と組み合わせれば、ユーザーに中断を意識させない
Replicate統合
- ReplicateチームがCloudflare AI Platformチームに加わり、完全統合を進めている
- ReplicateのすべてのモデルをAI Gatewayへ移管し、ホスティングモデルをCloudflareインフラ上へ再プラットフォーム化
- ユーザーは既存のReplicateモデルをAI Gatewayから呼び出すことも、ReplicateにデプロイしたモデルをWorkers AIでホスティングすることも可能
はじめに
- 開発者はAI GatewayドキュメントまたはWorkers AIドキュメントから始められる
- Agents SDKを通じてCloudflare上でエージェントを構築できる
Cloudflareの役割
- Cloudflareはコネクティビティ中心のクラウド(connectivity cloud)として、企業ネットワークの保護、大規模アプリケーションの構築、Webパフォーマンスの高速化、DDoS防御およびZero Trustセキュリティを支援
- 無料アプリ1.1.1.1により、より高速で安全なインターネット利用が可能
- Cloudflareの使命はより良いインターネットを構築することであり、関連情報や採用情報は公式Webサイトで確認できる
1件のコメント
Hacker Newsのコメント
結局これは openrouter に Cloudflare Argo networking を載せたようなものに見える
Replicate の買収を生かして、もっと面白いものを作れそう
application-specific RL はどんどん良くなっているが、これを スケーラブルにデプロイ する方法が不足している
Fireworks のようなところも LoRA をスケール配備すると言っているが、実際にはうまくいかない
なので今は、自分のアプリのベース負荷をガレージにある複数台の 3090 で自前ホスティングしている。ばかげてはいるが、月に 1,000 ドル節約できている
これはかなり便利そう。Cloudflare は良いツールをうまく集めている
特に D2 は事実上唯一の sqlite-as-a-service で、安定性も良く、無料プランの上限も十分大きい
新しい DB をバインドするには Worker を再デプロイする必要があり、事実上不可能だ
内部ネットワーク層でクエリが数秒、ひどいと数十秒止まる
一部のクエリは observability ダッシュボード にも現れないので、自前でタイムアウト検知を入れないと問題に気づけない
トランザクションもサポートしておらず、issue スレッド では PM が実装予定はないと明言している
データ整合性を保証するには Durable Object を使う必要があるが、それにはまた別のコストとトレードオフがある
アイデアは良いが、本番用途としては信頼しにくい。趣味プロジェクトには良い
今は Worker でカスタムコードを書くしかない
OpenRouter を作ると言いながら独自ランタイムのバインディングしかサポートしないのは理解しづらい
Workers AI モデル一覧 と
AI モデルカタログ ではモデル構成が異なる
「workers-ai/*」名前空間にはずっと少ないモデルしかない。意図したものなのか気になる
「workers-ai/@cf/nvidia/nemotron-3-120b-a12b」のようなモデルは
gateway.ai.cloudflare.com の /models エンドポイントには存在しない。だが、ホスト型モデルとしては存在している
自分は openrouter を Cloudflare Workers でうまく使っている
モデルがオフラインのときの cascading と waterfalling もずっと優秀だ
V1 ではまだそれができないようだ
openrouter のあらゆる点が気に入っていて、ほとんどファンみたいなものだ
推論(inference) 層 の問題は急速に解決されつつある
次に難しいのは governance 層、つまりエージェントが何をできるのか、そしてその証明だ
Cloudflare もこの点を考えているのか気になる
各エージェントが RBAC 資格情報を提出して権限を得る構造を想像している
Replicate の買収がついに 成果を出している様子 で見ていて良い
モデルページ に 価格情報 が見当たらない
直接プロバイダーに支払うよりどれくらい高いのか気になる
Cloudflare は原価で提供しているのだろうか?
また、zero data retention がデフォルトではなく、一部のプロバイダーではそもそもサポートされていない
OpenAI と Anthropic スタイルの completions を両方返せるとよいのだが
現在はプロバイダー料金と同額で、unified billing credits を通じて少額の処理手数料が加わります
OpenAI/Anthropic スタイルの completions もまもなく対応予定です
unified billing の説明リンク
結局これは openrouter に類似したサービス に見える
かなり大きな発表だ。AWS Bedrock の代替 として十分競争力がありそう
Anthropic や AWS よりも稼働率(uptime) が高い可能性すらある