テスラのプロジェクト Dojo 概要
(perspectives.mvdirona.com)<p>AWS VPのJames Hamiltonによる記事<br />
- Dojo機械学習システムは、3つの観点で興味深い <br />
1. 大規模ネットワーク <br />
→ 各D1チップは16,000Gbps(4Tbps 4チャネル)のネットワーキングを提供し、25チップのMCM(Multi-Chip Modules)として結合され、36,000Gbps(4x 9Tb)の帯域幅を提供<br />
2. 非常に小さいメモリ対計算比率 <br />
→ 各D1チップは354個の機能ユニットで構成され、各ユニットには1.25メガのSRAMしかなくDRAMはないため、D1チップ1個あたりのメモリは1ギガの半分にも満たない(442.5Mb)<br />
→ 5台単位のラックの端に大きなDRAMプールを配置し、コンピューティングラック自体にはDRAMがない<br />
→ これほど少ないメモリでどう動作可能なのかを考えると、広大なネットワーク帯域幅と、一般的なML学習タスクよりはるかに少ないメモリを使うビジョンモデルを実行するよう設計されたシステムの組み合わせだろう<br />
3. 驚異的な電力密度 <br />
→ 各D1チップの消費電力はわずか400Wで、これはこのサイズでは最先端水準の想定値に相当するが、これをかなり高密度な25チップMCMに統合し、15kw(D1の10kwと電圧レギュレータの5kw)のみの消費に抑えている<br />
→ するとフル搭載の10ラックDojoトレーニングシステムは1.8メガワットになる<br />
→ 規模の観点で見ると、中規模のデータセンターは30〜40メガワットの範囲で運用されるだろう<br />
<br />
- 細かな点ではあるが、VRD(Voltage Regulator Down)をタイル上に直接配置したのは、異常に高い52V電源を供給するための良い試みのようだ。15Kwの消費電力を考慮しても、52Vでなお288Aを消費する<br />
- 354個の機能ユニットが1つの645mm^2のD1チップに統合されている。25個のD1チップがトレーニングタイルと呼ばれるマルチチップモジュールを形成し、12個のトレーニングタイルがラックを構成し、10個のラックがExapodを満たす。<br />
- 「かなり革新的なシステム」</p>
1件のコメント