7 ポイント 投稿者 xguru 2023-09-07 | 1件のコメント | WhatsAppで共有
  • 1,800億パラメータを含む最大規模の公開言語モデル
  • 公開モデルの中ではリーダーボード1位にランク。Llama 2 70BおよびGPT-3.5を上回り、PaLM-2と競合
  • TIIのRefinedWebデータセット(大半が英語)を用い、3.5Tトークンで学習
    • Llama 2より2.5倍大きく、4倍以上の計算能力で学習(Amazon SageMakerで4,096基のGPUを使用)
  • Falcon 180Bは商用利用可能だが、「ホスティング利用」を除き、非常に制限の厳しい条件でのみ利用可能。ライセンス確認必須
  • ハードウェア要件
    • フルファインチューニング: メモリ 5120GB, 8x 8x A100 80GB
    • LoRA with ZeRO-3: 1280GB, 2x 8x A100 80GB
    • QLoRA: 160GB, 2x A100 80GB
    • 推論 BF16/FP16 : 640GB, 8x A100 80GB
    • 推論 GPTQ/int4 : 320GB, 8x A100 40GB

1件のコメント

 
kuroneko 2023-09-07

サイズがものすごいですね。ハードウェア要件もそうですし……