gigaGPT - 565行のコードで作られたGPT-3モデル

xguru · 2023-12-16T10:31:01+09:00

Andrei KarpathyのnanoGPTを改良し、100M（1億）パラメータまでしか扱えなかったものを100B（1000億）まで学習可能にした他のコードやサードパーティ製フレームワークへの依存はなく、「Cerebrasハードウェア」の大容量メモリと演算能力を活用して、素のtorch.nnコードによる大規模学習を可能にする特別な修正なしで長いコンテキスト長をサポートし、さまざまな最適化ツールと連携する Cerebrasはチップセットメーカーで、行列積の速度はGPUと同程度だが、はるかに大きく作ることで1つのチップにより多くのトランジスタとメモリを搭載している企業この大きさのおかげで、複数デバイスにまたがってシャーディングしてから統合するといった作業が不要になり、LOCを少なくできる

(cerebras.net)

12 ポイント投稿者 xguru 2023-12-16 | まだコメントはありません。 | WhatsAppで共有

Andrei KarpathyのnanoGPTを改良し、100M（1億）パラメータまでしか扱えなかったものを100B（1000億）まで学習可能にした
他のコードやサードパーティ製フレームワークへの依存はなく、「Cerebrasハードウェア」の大容量メモリと演算能力を活用して、素のtorch.nnコードによる大規模学習を可能にする
特別な修正なしで長いコンテキスト長をサポートし、さまざまな最適化ツールと連携する
Cerebrasはチップセットメーカーで、行列積の速度はGPUと同程度だが、はるかに大きく作ることで1つのチップにより多くのトランジスタとメモリを搭載している企業
- この大きさのおかげで、複数デバイスにまたがってシャーディングしてから統合するといった作業が不要になり、LOCを少なくできる

gigaGPT - 565行のコードで作られたGPT-3モデル

関連記事

まだコメントはありません。