gigaGPT - 565行のコードで作られたGPT-3モデル
(cerebras.net)- Andrei KarpathyのnanoGPTを改良し、100M(1億)パラメータまでしか扱えなかったものを100B(1000億)まで学習可能にした
- 他のコードやサードパーティ製フレームワークへの依存はなく、「Cerebrasハードウェア」の大容量メモリと演算能力を活用して、素の
torch.nnコードによる大規模学習を可能にする - 特別な修正なしで長いコンテキスト長をサポートし、さまざまな最適化ツールと連携する
- Cerebrasはチップセットメーカーで、行列積の速度はGPUと同程度だが、はるかに大きく作ることで1つのチップにより多くのトランジスタとメモリを搭載している企業
- この大きさのおかげで、複数デバイスにまたがってシャーディングしてから統合するといった作業が不要になり、LOCを少なくできる
まだコメントはありません。