DeepSpeed Ulysses: 長いシーケンスのトランスフォーマーモデル学習のためのシステム最適化
(github.com/microsoft)- 既存システムより4倍長いシーケンス長を提供し、100万を超えるトークンを含むシーケンスで学習可能
- 通信量を10倍以上削減し、スループットが最大2.5倍向上。スループットは175 TFlops/GPU以上を維持
- 完全に汎用的で実装に依存しない Attention(FlashAttention 2 のような実装とも動作)
- 大規模モデル学習をサポート: ZeRO-3 と連携して大規模なシーケンス/モデルサイズをサポート
- 使いやすく移植性に優れ、既存フレームワークの変更を最小化
まだコメントはありません。