9 ポイント 投稿者 GN⁺ 2023-12-07 | 3件のコメント | WhatsAppで共有
  • AWSの新しい「S3 Express One Zone」低レイテンシなストレージクラスが、データインフラコミュニティで注目を集めている
    • データアクセス速度は10倍速く、APIリクエスト費用は50%安価。毎分数百万件のリクエストを処理可能
  • S3 Expressストレージクラスは、既存のS3 Standardと比べてGiBあたり8倍高価なため、大規模データシステムの「主」ストレージとしては不向き
  • API操作コストは50%安いものの、劇的に安いわけではなく、これまでS3 APIのコストのために非現実的だったワークロードには依然として適していない
  • S3 Expressは、512 KiBを超えるすべてのAPI操作(書き込み + 読み取り)に対してGiBあたりの料金を課す
    • 別の見方をすれば、すべてのAPI操作には512 KiBの「無料」帯域幅があり、それを超えた場合にのみ料金が発生する
  • ただし、One Zoneストレージクラスであるため、データシステムは単一AZの障害に備えて、データを2つのAZに手動で複製する必要がある
    • 2つのAZにデータを二重に書き込むコストは、アプリケーション層で手動複製するコストと同程度

最新データインフラへの新たな機会

  • この新しいストレージクラスは、同じアーキテクチャとコードのままで、低レイテンシと高コスト、高レイテンシと低コストの間を調整できる新たな機会を提供する
  • これで最新のデータシステムはすべて、ローカルディスクやブロックストレージ(EBS)の可用性に依存して設計する必要がなくなり、オブジェクトストレージを基盤として完全に構築できる
  • データは低レイテンシなS3 Expressバケットに簡単に保存し、その後非同期でS3 Standardバケットへ移動できる。さらに、ほとんどの最新データシステムはすでに圧縮機能を備えているため、「ストレージ階層化」は事実上無料

GN⁺の見解

この記事で最も重要な点は、AWSの新しいS3 Express One Zoneストレージクラスがデータインフラにどのような変化をもたらしうるかという展望だ。このストレージクラスは、データシステムのコストと性能を大きく改善できる新たな機会を提供し、データ管理と保存の方法に革新をもたらす可能性がある。特に、すべてのデータシステムをオブジェクトストレージ中心に構築できる能力は、多くの企業や開発者にとって魅力的な選択肢になるだろう。こうした変化は、データインフラの未来をより柔軟でコスト効率の高いものにすると期待される。

3件のコメント

 
kuroneko 2023-12-07

どのように使われるのか気になりますね。

 
heycalmdown 2023-12-07

ちょうど昨日、WarpStream をもう一度検索してみたので、リンクを添付します
https://ja.news.hada.io/topic?id=10234

 
GN⁺ 2023-12-07
Hacker Newsの意見
  • S3ベースの大半の本番ストレージシステム/データベースは、実用的な性能を出すためにSSD/メモリのキャッシュ層を構築することにかなりの労力を費やしている。

    • S3 ExpressはHDDのランダムリード速度に近いため、SSDキャッシュなしでも本番システムを構築できる。
    • 多くのシステムは依然としてSSDキャッシュを維持するだろうが、MVPは今やSSDキャッシュなしで構築でき、コールドクエリの待ち時間が大幅に減る。
    • 現在オブジェクトストレージ上にベクターデータベースを構築しているので、この技術は非常にタイムリーだ。
  • AWS S3 ExpressのストレージコストはS3 Standardより8倍高いが、現代のデータストレージシステムでは問題にならない。

    • データは低遅延のS3 Expressバケットに容易に保存でき、非同期でS3 Standardバケットへ圧縮して移動される。
    • ほとんどの現代的なデータシステムはすでに圧縮機能を備えているため、「ストレージ階層化」は事実上無料だ。
    • 大半のデータ集約型アプリが主要ストレージ層としてS3を使う未来を予想している。
  • 数週間前に検索エンジンQuickwitでS3 Expressをテストした。

    • 性能面では満足だったが、価格には失望した。
    • 特定のユースケースでは価格が妥当かもしれないが、ほとんどのユーザーは従来のS3にローカルSSDキャッシュを追加すると予想している。
  • 追加の文脈として、warpstreamはS3をオブジェクトストレージとして使うKafka互換のストリーミングシステムを構築している。

    • これにより、安価なAZ間転送料金と自動ストレージ階層化を活用して、システムの運用・保守コストを削減している。
    • S3の読み書き速度に起因するレイテンシが問題だったが、S3 Expressによって、このようなレイテンシに敏感なアプリケーションでConfluent Kafkaのマネージド製品と競争できるようになる。
  • ローカルでファイルをS3にアップロードする前にRedisへキャッシュすることで問題を解決した。

    • コードベースはファイルを使う際にRedisを確認し、そこになければ取得して再度キャッシュする。
  • EFSはS3よりはるかに優れているのに、なぜ注目されないのか理解できない。

    • システムでドライブとしてマウントでき、システム間で共有でき、すでに非常に低いレイテンシを備えている。
    • EFSがすでに存在するのに、S3 Expressが実際どれほど有用なのか確信が持てない。
  • 「X is all you Need」という表現が、「Attention is all you need」の論文で最初に使われたのか気になる。

    • その論文はTransformerを世界に紹介した。
  • これがRustで書かれた低遅延S3だとしたら、数年の開発を経てついにリリースされたことになる。

  • 新しいS3 Express層を使うことで性能が向上するユースケースがあるのか、そして8倍の追加コストに見合うのか気になる。

  • 多くのS3実装は単にディスクへの透過的なダウンロードに見えるが、実際には「ネットワークをディスクとして使う」わけではない。