DeepSpeed Ulysses: 長いシーケンスのトランスフォーマーモデル学習のためのシステム最適化

xguru · 2023-08-31T11:03:01+09:00

既存システムより4倍長いシーケンス長を提供し、100万を超えるトークンを含むシーケンスで学習可能通信量を10倍以上削減し、スループットが最大2.5倍向上。スループットは175 TFlops/GPU以上を維持完全に汎用的で実装に依存しない Attention（FlashAttention 2 のような実装とも動作）大規模モデル学習をサポート: ZeRO-3 と連携して大規模なシーケンス/モデルサイズをサポート使いやすく移植性に優れ、既存フレームワークの変更を最小化

(github.com/microsoft)

5 ポイント投稿者 xguru 2023-08-31 | まだコメントはありません。 | WhatsAppで共有

既存システムより4倍長いシーケンス長を提供し、100万を超えるトークンを含むシーケンスで学習可能
通信量を10倍以上削減し、スループットが最大2.5倍向上。スループットは175 TFlops/GPU以上を維持
完全に汎用的で実装に依存しない Attention（FlashAttention 2 のような実装とも動作）
大規模モデル学習をサポート: ZeRO-3 と連携して大規模なシーケンス/モデルサイズをサポート
使いやすく移植性に優れ、既存フレームワークの変更を最小化

DeepSpeed Ulysses: 長いシーケンスのトランスフォーマーモデル学習のためのシステム最適化

関連記事

まだコメントはありません。