Falcon 180Bモデル公開
(huggingface.co)- 1,800億パラメータを含む最大規模の公開言語モデル
- 公開モデルの中ではリーダーボード1位にランク。Llama 2 70BおよびGPT-3.5を上回り、PaLM-2と競合
- TIIのRefinedWebデータセット(大半が英語)を用い、3.5Tトークンで学習
- Llama 2より2.5倍大きく、4倍以上の計算能力で学習(Amazon SageMakerで4,096基のGPUを使用)
- Falcon 180Bは商用利用可能だが、「ホスティング利用」を除き、非常に制限の厳しい条件でのみ利用可能。ライセンス確認必須
- ハードウェア要件
- フルファインチューニング: メモリ 5120GB, 8x 8x A100 80GB
- LoRA with ZeRO-3: 1280GB, 2x 8x A100 80GB
- QLoRA: 160GB, 2x A100 80GB
- 推論 BF16/FP16 : 640GB, 8x A100 80GB
- 推論 GPTQ/int4 : 320GB, 8x A100 40GB
1件のコメント
サイズがものすごいですね。ハードウェア要件もそうですし……