5 ポイント 投稿者 GN⁺ 2024-11-19 | 1件のコメント | WhatsAppで共有
  • Regatta Storage の紹介

    • Regatta Storage は新しいクラウドファイルシステムで、無制限の容量を提供し、ローカル同様の性能と S3 互換ストレージへの自動同期をサポートする
    • Spark、Pytorch、pandas のようなツールを使って、S3 の大規模データセットに即座にアクセスできるようにする
    • アカウントを作成すれば、無料でサービスを試すことができる
  • 開発の背景

    • 創業者は Amazon EFS と Netflix でクラウドストレージを構築・運用した経験をもとに Regatta を開発した
    • EFS のシンプルさと拡張性は気に入っていたが、Netflix では EFS の利用は少なかった
    • ローカルディスクから NFS にワークロードを移す際に性能上の問題が発生した
    • クラウドストレージ市場で、ブロックまたはファイルストレージでは解決されていない問題を解決するために Regatta を開発した
  • Regatta の特徴

    • 従量課金制のクラウドファイルシステムで、アプリケーションに合わせて自動的にスケールする
    • S3 とネイティブなファイル形式で自動同期されるため、既存のデータセットと接続でき、S3 上のファイルデータを直接利用できる
    • 使用していないデータは Regatta キャッシュから削除されるため、S3 ストレージ分のコストだけを支払えばよい
    • 小規模ファイルのワークロードにはローカル同様の性能を、分散データ処理には Lustre のようなスケーラブルな性能を提供するカスタムファイルプロトコルを開発中
  • 技術的な実装

    • 顧客は NFSv3 を通じて Regatta ファイルシステムをマウントし、キャッシュインスタンスは顧客の S3 バケットに接続される
    • サブミリ秒のキャッシュ済み読み書き性能を提供し、強い一貫性を維持する
    • ディレクトリ名の変更のような複雑な操作も高速かつ安定的に実行し、S3 バケットへ非同期に伝播される
  • ユーザー事例と期待

    • AI 研究者向けのサーバーレス Jupyter ノートブックサーバーの構築に使われている
    • S3 上の分散キャッシュレイヤーとして使われ、低レイテンシで共通ファイルにアクセスしている
    • Ceph のブートボリュームを置き換えてコスト削減効果を得ている
    • ユーザーからのフィードバックや今後の方向性に関するアイデアを歓迎しており、コミュニティの意見を待っている

1件のコメント

 
GN⁺ 2024-11-19
Hacker Newsのコメント
  • RcloneとRegatta Storageの違いは、ファイルシステムの変更操作時にRegattaが高速キャッシュレイヤーを使って強い整合性を提供する点。Rcloneには並列クライアント間の整合性を保証するレイヤーがない

    • Regatta Storageは、ファイルシステムの変更操作時に高速キャッシュレイヤーを使って強い整合性を提供する
    • Rcloneには並列クライアント間の整合性を保証するレイヤーがない
  • YCから出た最もクールな製品の1つで、動作方法についていくつもの疑問がある

    • 10GBのローカルディスクで50GB規模のデータを扱うとき、性能低下が発生するのか気になる
    • AWS以外のクラウドでも高速な速度が得られるのか気になる
    • FUSEとNFSマウントを使う方式について知りたい
    • ClickhouseやPostgresをRegattaボリューム上で実行できるのか気になる
    • オープンソース化についてどう考えているのか気になる
    • 複数のサーバーにマウントできるのか、その制限は何かが気になる
  • GCP Filestoreを使ってDuckDBをホストしており、Regattaの価格と性能についての情報を求めている

    • 10 TiBインスタンスの価格と性能についての情報を求めている
  • SQLite/DuckDB/parquetのバックアップディスクとして関心があり、インスタンスのローカルNVMeストレージでキャッシュされた読み取りを望んでいる

    • NFSでは得られないロックと共有メモリ機能が必要
    • ユーザー空間で直接実装することもできるが、そうするくらいならS3を使うつもり
  • NFSをプロトコルとして使うのは良いアイデアだと思う

    • IBMで似た概念の暗号化ファイルシステムを書いた経験がある
    • ファイルシステムをマウントすると、すべてのデータが「そのままそこにある」ように見えるのは魔法のようだ
  • AWSがこの製品を複製し、より安い価格で提供する可能性への懸念がある

  • 2008年にAdobeのCEOの前で、iPhoneで撮った写真がMacにファイルとして自動的に現れるデモを成功させた経験がある

    • FUSEを使ってAdobeの分散オブジェクトストレージと通信するローカルFUSEを実装した
    • Dropboxの立ち上げとともに分散システムの研究開発を始めた
  • Lambda + SQLite + Regattaを使ってリアルタイムACID SQLストレージを構築できるのか気になる

  • ファイル更新の競合をどう処理するのかが明確ではない

    • たとえば、2人のユーザーが別々のコンピューターから同じファイルを更新した場合、最終的なファイルがどうなるのか気になる
  • s3fs、rclone、goofysなどの注目すべき代替手段がある