3 ポイント 投稿者 GN⁺ 2023-08-09 | 1件のコメント | WhatsAppで共有
  • この記事では、S3 上に直接構築された Kafka プロトコル互換のデータストリーミングプラットフォーム WarpStream を紹介しています。
  • WarpStream は単一のステートレスな Go バイナリとして提供され、ローカルディスク管理、ブローカーの再均衡、ZooKeeper 運用の必要をなくします。
  • このプラットフォームはデータを直接 S3 にストリーミングすることで、インフラコストを大幅に削減し、クラウド上では Kafka より 5〜10 倍安価です。
  • この記事は、Kafka が現代的なワークロードに適しているかを批判的に捉え、高額なインター AZ 帯域コストと運用オーバーヘッドを強調しています。
  • WarpStream のアーキテクチャは Kafka とは異なります。ブローカーの代わりに、ステートレスな「エージェント」があり、任意のトピックの「リーダー」として動作したり、任意のコンシューマーグループのオフセットをコミットしたり、クラスターのコーディネーターとして機能したりできます。
  • WarpStream ではすべてのストレージが S3 のようなオブジェクトストレージにオフロードされるため、容易なスケールと高速な障害復旧が可能です。
  • WarpStream はデータとメタデータを分離し、すべての「仮想クラスター」のメタデータをカスタムのメタデータデータベースに保存します。
  • このプラットフォームは、ほとんどの Kafka ワークロードの総コストを 5〜10 倍大きく削減しますが、プロデュース要求に対する P99 は約 400ms、プロデューサーからコンシューマーまでの遅延は約 1 秒と、より高いレイテンシがあります。
  • WarpStream は現在デベロッパープレビュー段階にあり、まだ本番利用の準備はできていません。
  • WarpStream の開発者たちは、Kafka の開発者 UX に問題があると考えており、特にパーティションという低レベル抽象化を課題として挙げています。彼らは今後の WarpStream のアップデートでこれを解決する計画です。
  • この記事は、読者に WarpStream を試し、フィードバックを提供してほしいと呼びかけて締めくくられています.

1件のコメント

 
GN⁺ 2023-08-09
Hacker Newsの意見
  • データストリーミング技術であるKafkaの二面的な性格についての記事
  • 大半のテック企業がKafkaを使っているかどうかをめぐる議論
  • 各メッセージをS3に直接プッシュすることの費用対効果と、各AZでKafkaクラスターを運用する問題
  • S3上に直接構築されたKafkaプロトコル互換のストリーミングシステムであるWarpStreamの共同創業者兼CTO、Ryan Worlによる紹介
  • WarpStreamの費用対効果、状態を持つディスク/ノードの運用が不要であること、データ再バランスやZooKeeperが不要であること、クロスAZ帯域幅料金の削減を強調
  • クラウドプロバイダー上でKafkaを別個のVMで運用するコストへの批判
  • プロバイダーの冗長性を活用するために、適切に設計されたHadoop/Kafkaクラウド管理サービスでストレージアダプターを使うことについての議論
  • Kafkaには専門チームと大きな予算が必要だという記事の主張に対する一部ユーザーの不満
  • Kafkaではパーティション数を変更できるという事実の強調
  • Kafkaの運用には大規模なエンジニアリングチームが必要だという記事の主張をめぐる論争
  • WarpStreamがどのようにサービスを管理しているのか、クラウドプロバイダーとベアメタルのどちらを使っているのか、メタデータストアにfoundationdbを使っているのかについての疑問
  • Kafka APIの潜在力と、クラスター管理の複雑さを抽象化できる可能性についての議論
  • 大規模なMLトラフィックをS3へ移すことによるコスト削減について、あるユーザーは約90%のコスト削減を報告
  • 新しい技術の導入を反映して、記事タイトルを「Kafkaは死んだ。王となるのはWarpstream。」に変更する提案