Launch HN: Regatta Storage (YC F24) – S3をローカルに近いPOSIXクラウドファイルシステムへ変換する技術
(news.ycombinator.com)-
Regatta Storage の紹介
- Regatta Storage は新しいクラウドファイルシステムで、無制限の容量を提供し、ローカル同様の性能と S3 互換ストレージへの自動同期をサポートする
- Spark、Pytorch、pandas のようなツールを使って、S3 の大規模データセットに即座にアクセスできるようにする
- アカウントを作成すれば、無料でサービスを試すことができる
-
開発の背景
- 創業者は Amazon EFS と Netflix でクラウドストレージを構築・運用した経験をもとに Regatta を開発した
- EFS のシンプルさと拡張性は気に入っていたが、Netflix では EFS の利用は少なかった
- ローカルディスクから NFS にワークロードを移す際に性能上の問題が発生した
- クラウドストレージ市場で、ブロックまたはファイルストレージでは解決されていない問題を解決するために Regatta を開発した
-
Regatta の特徴
- 従量課金制のクラウドファイルシステムで、アプリケーションに合わせて自動的にスケールする
- S3 とネイティブなファイル形式で自動同期されるため、既存のデータセットと接続でき、S3 上のファイルデータを直接利用できる
- 使用していないデータは Regatta キャッシュから削除されるため、S3 ストレージ分のコストだけを支払えばよい
- 小規模ファイルのワークロードにはローカル同様の性能を、分散データ処理には Lustre のようなスケーラブルな性能を提供するカスタムファイルプロトコルを開発中
-
技術的な実装
- 顧客は NFSv3 を通じて Regatta ファイルシステムをマウントし、キャッシュインスタンスは顧客の S3 バケットに接続される
- サブミリ秒のキャッシュ済み読み書き性能を提供し、強い一貫性を維持する
- ディレクトリ名の変更のような複雑な操作も高速かつ安定的に実行し、S3 バケットへ非同期に伝播される
-
ユーザー事例と期待
- AI 研究者向けのサーバーレス Jupyter ノートブックサーバーの構築に使われている
- S3 上の分散キャッシュレイヤーとして使われ、低レイテンシで共通ファイルにアクセスしている
- Ceph のブートボリュームを置き換えてコスト削減効果を得ている
- ユーザーからのフィードバックや今後の方向性に関するアイデアを歓迎しており、コミュニティの意見を待っている
1件のコメント
Hacker Newsのコメント
RcloneとRegatta Storageの違いは、ファイルシステムの変更操作時にRegattaが高速キャッシュレイヤーを使って強い整合性を提供する点。Rcloneには並列クライアント間の整合性を保証するレイヤーがない
YCから出た最もクールな製品の1つで、動作方法についていくつもの疑問がある
GCP Filestoreを使ってDuckDBをホストしており、Regattaの価格と性能についての情報を求めている
SQLite/DuckDB/parquetのバックアップディスクとして関心があり、インスタンスのローカルNVMeストレージでキャッシュされた読み取りを望んでいる
NFSをプロトコルとして使うのは良いアイデアだと思う
AWSがこの製品を複製し、より安い価格で提供する可能性への懸念がある
2008年にAdobeのCEOの前で、iPhoneで撮った写真がMacにファイルとして自動的に現れるデモを成功させた経験がある
Lambda + SQLite + Regattaを使ってリアルタイムACID SQLストレージを構築できるのか気になる
ファイル更新の競合をどう処理するのかが明確ではない
s3fs、rclone、goofysなどの注目すべき代替手段がある