- DeepSeek AIチームは、AGIの探求において限界を超えるために取り組んでいる
- 来週から 5つのリポジトリをオープンソースとして公開する予定 であり、これは開発者としての小さな前進を透明性高く共有するため
- これらはオンラインサービスの基本コンポーネントであり、文書化され、デプロイされ、実環境でテストされたコード
- 毎日新しいコードが公開される予定で、コミュニティ主導のイノベーションを促進することが目的
- Hopper GPU向けの効率的なMLAデコーディングカーネル
- 可変長シーケンスのサービング向けに最適化
- 現在リリースされているもの
- BF16
- 64ブロックサイズ Paged kvcache
- ベンチマーク: CUDA 12.6を使用し、H800 SXM5でメモリボトルネック構成では最大3000GB/s、演算ボトルネック構成では580 TFLOPSを達成
- Mixture-of-Experts(MoE) および Expert Parallelism(EP) 向けの 高性能通信ライブラリ
- GPUベースの All-to-Allカーネル を提供し、MoEのディスパッチおよび結合演算を高速に処理
- FP8 のような低精度演算をサポート
- DeepSeek-V3 論文で提案された グループ制限ゲーティング(group-limited gating)アルゴリズム を適用し、非対称ドメイン帯域幅フォワーディング を最適化
- 例: NVLink → RDMA データ転送の最適化
- 学習および 推論プリフィリング(prefilling) ワークロードに適した高スループットを提供
- レイテンシに敏感な推論デコーディング向けに RDMA専用の低遅延カーネル を含む
- 通信-計算オーバーラップ手法 を提供(SMリソースを占有しない)
- FP8行列乗算(GEMM) を効率的に実行するライブラリで、DeepSeek-V3で提案された 微細粒度スケーリング(fine-grained scaling) 方式をサポート
- 通常のGEMMと Mix-of-Experts(MoE) グループ化GEMM の両方をサポート
- CUDAベースで実装されており、インストール時に別途コンパイル不要で、軽量な Just-In-Time(JIT) モジュール を使ってランタイムでカーネルをコンパイル
- 現在は NVIDIA Hopper Tensor Core専用 でサポート
- FP8 Tensor Coreの不正確な累積演算を補うため、CUDAコアベースの 二重累積(promotion) を使用
- CUTLASS および CuTe の一部の概念を活用しているが、複雑なテンプレート依存を減らし、約300行のカーネルコード בלבדを含む シンプルな設計
- Hopper FP8行列演算および最適化手法の学習に適している
- 軽量設計にもかかわらず、さまざまな行列サイズで 専門家レベルにチューニングされたライブラリと同等またはそれ以上の性能を示す
- DeepSeek V3/R1で使われていた戦略とコード
- DualPipe : 計算-通信オーバーラップのための双方向パイプライン並列化アルゴリズム
- EPLB: Expert-Parallelロードバランサー
- Profile-Data: DeepSeekインフラのデータプロファイリングにより計算-通信オーバーラップを分析
- Fire-Flyer File System(3FS) は、AI学習および推論ワークロードを処理するために設計された高性能分散ファイルシステム
- 最新のSSDとRDMAネットワークを活用して共有ストレージ層を提供し、分散アプリケーション開発を簡素化
- 主な特徴と利点
- 性能と使いやすさ
- 分離型アーキテクチャ: 数千台のSSDと数百のストレージノードのネットワーク帯域幅を結合し、ローカリティに関係なくストレージリソースへアクセス可能
- 強力な一貫性保証: Chain Replication with Apportioned Queries(CRAQ) を使用して一貫性を維持し、アプリケーションコードを簡素化
- ファイルインターフェース対応: FoundationDBベースのトランザクション キー・バリューストアを活用したステートレスなメタデータサービスを提供。既存のファイルインターフェースを使うため、新しいストレージAPIを学ぶ必要がない
- 多様なワークロードをサポート
- データ準備: データ分析パイプラインの出力を階層ディレクトリ構造に整理し、大量の中間出力を効率的に管理
- データローダー最適化: データセットを事前ロードしたりシャッフルしたりする必要なく、複数のコンピュートノードから学習サンプルへランダムアクセス可能
- チェックポイント保存: 大規模学習向けの高速並列チェックポイント保存をサポート
- KVCacheベース推論最適化: DRAMベースのキャッシュよりコスト効率が高く、高スループットと大容量保存が可能
- SmallPond - DuckDBと3FS上に構築された軽量データ処理フレームワーク
- 高性能データ処理、大規模スケーラビリティ、簡単な運用が特徴
- 高性能データ処理: DuckDBを活用して高速なデータ処理
- 大規模データセット対応: ペタバイト(PB) 規模のデータ処理が可能
- 運用の容易さ: 長時間稼働サービスなしで手軽に利用可能
- システム設計原則: DeepSeek-V3/R1推論システムの最適化目標は より高いスループットと低いレイテンシ
- そのため クロスノード Expert Parallelism(EP) を適用して最適化
- DeepSeekの運用コスト
- GPU平均226ノード(1ノードあたり8基のH800 GPU)
- 1日の運用コスト: $87,072(1.27億ウォン)- H800 1基あたり $2/時間
- 理論上の1日収益(R1基準): $562027(8.2億ウォン)→ 収益率545%
- ただし実際の収益はこれより低い(V3がR1より安く、サービスの一部しか収益化していないため)
2024 AIインフラ論文 (SC24)
Fire-Flyer AI-HPC: ディープラーニングのためのコスト効率に優れたソフトウェア・ハードウェア共同設計
- ディープラーニング(DL) および大規模言語モデル(LLM) の急速な発展 により、計算性能と帯域幅への要求が指数関数的に増加
- 高性能コンピューティング(HPC) 構築コストは、高速演算チップと高速インターコネクトの高価格により急激に上昇
- これを解決するため Fire-Flyer AI-HPCアーキテクチャ を導入し、ハードウェアとソフトウェアの協調設計に基づくコストと性能の最適化を達成
- 10,000基のPCIe A100 GPUを活用した Fire-Flyer 2 システム を構築してDL学習を実施
- DGX-A100に類似した性能を提供しつつ、コストを半減し、エネルギー消費を40%削減
- 性能最適化要素
- HFReduce : Allreduce通信を高速化し、GPU間のデータ同期速度を向上
- Computation-Storage Integrated Network : ネットワークのボトルネックを防ぐため、さまざまな輻輳管理手法を適用
- ソフトウェアスタック : HaiScale, 3FS, HAI-Platform を通じて計算と通信を重ねて実行し、スケーラビリティを最大化
2件のコメント
DeepSeekは本当に興味深い動きを続けていますね。どのようなものが公開されるのか気になります。
Hacker Newsの意見
DeepSeekのリリースを楽しみにしつつも、過剰な分析はしていないのは自分だけなのだろうか。このスレッドは個人的な解釈であふれている感じがする
来週から5つのリポジトリをオープンソース化する予定だ。1日1つずつ公開するとのこと
DeepSeekの革新性と研究には深い敬意を抱いている。彼らが公開したすべてのものに対して
実際、彼らはOpenAIを完全に解体しつつある。おそらく彼らの意図とは無関係に
AI分野における moat がどこにあるのかを見るのは興味深い。優れたベースモデルは、APIにアクセスできるなら常に蒸留できる。システムプロンプトは漏洩しうるし、UIの工夫はコピーできる。結局のところ、moat はハードウェアと垂直統合にあるのかもしれない
DeepSeekとOpenAIは名前を入れ替えたほうがいいのでは?
インフラツールをオープンソース化することは、AI分野のイノベーションを本当に加速させうる。よく文書化されたリポジトリにアクセスできれば、既存の作業を実験し、その上に構築するのがずっと容易になる
FacebookとDeepSeekによって基盤モデルが事実上オープンソース化されている中で、そうした企業の評価額がどう競争できるのか気になる。中国勢とFacebookが大半をほぼ無料で提供している以上、こうしたモデルを構築することが数千億ドル規模の価値を生み出すとは思えない