- Fire-Flyer File System(3FS)は、AIの学習および推論ワークロードを処理するために設計された高性能な分散ファイルシステム
- 最新のSSDとRDMAネットワークを活用して共有ストレージ層を提供し、分散アプリケーション開発を簡素化
主な特徴と利点
- 性能と使いやすさ
- 分離型アーキテクチャ: 数千台のSSDと数百台のストレージノードのネットワーク帯域幅を結合し、ローカリティに関係なくストレージリソースへアクセス可能
- 強力な一貫性保証: Chain Replication with Apportioned Queries(CRAQ)を使用して一貫性を維持し、アプリケーションコードを簡素化
- ファイルインターフェース対応: FoundationDBベースのトランザクション型キー・バリューストアを活用したステートレスなメタデータサービスを提供。既存のファイルインターフェースを使用するため、新しいストレージAPIを学ぶ必要がない
- 多様なワークロードに対応
- データ準備: データ分析パイプラインの出力を階層型ディレクトリ構造として整理し、大量の中間出力を効率よく管理
- データローダー最適化: データセットを事前ロードまたはシャッフルする必要なく、複数のコンピュートノードから学習サンプルへランダムアクセス可能
- チェックポイント保存: 大規模学習向けの高速な並列チェックポイント保存をサポート
- KVCacheベースの推論最適化: DRAMベースのキャッシュよりコスト効率が高く、高スループットと大容量保存が可能
性能テスト
- 最大スループットテスト
- 180台のストレージノード(各ノードに2×200Gbps InfiniBand NICおよび16基の14TiB NVMe SSDを搭載)
- 500台超のクライアントノード(各ノードに1×200Gbps InfiniBand NICを搭載)
- AI学習ジョブと並列で実行した読み取り負荷テストで、合計6.6TiB/sのスループットを記録
- GraySortベンチマークテスト
- 25台のストレージノード(各ノードあたり2つのNUMAドメイン、2×400Gbps NIC)
- 50台のコンピュートノード(192物理コア、2.2TiB RAM、1×200Gbps NIC)
- 110.5TiBのデータ(8,192パーティション)を30分14秒でソートし、平均スループット 3.66TiB/min を達成
- KVCache性能テスト
- 大規模言語モデル(LLM)の推論過程で、キー・バリューベクトルのキャッシュにより不要な計算を最小化
- ピーク読み取りスループット40GiB/sを記録
- Garbage Collection(GC)実行中の削除処理(IOPS)性能分析を含む
- 高性能なデータ処理、大規模なスケーラビリティ、簡単な運用が特徴
- 高性能データ処理: DuckDBを活用して高速にデータ処理
- 大規模データセット対応: ペタバイト(PB)規模のデータ処理が可能
- 運用の容易さ: 長時間稼働するサービスなしで手軽に利用可能
まだコメントはありません。