Meta、Llama 3.1を公開
(ai.meta.com)- 128Kのコンテキスト長、8言語をサポートし、405Bモデルを追加(8B、70B、405B)
- 誰でもファインチューニング、改良し、どこにでもデプロイできるオープンソースのインストラクションチューニング済みAIモデル
- 新たに公開された405Bモデルは、MMLU(一般)、Human Eval(コーディング)、GSM8K(数学)ベンチマークなどでGPT-4oとほぼ同等、またはそれを上回る水準を達成
- 柔軟性と制御性において最高水準のAIモデル
- コミュニティが合成データ生成やモデル蒸留のような新しいワークフローを活用できるようにする
- 15兆個以上のトークンを使用して学習され、16,000台以上のH100 GPUを使用
- アップグレードされた70Bモデルは、ほとんどのベンチマークでGPT-3.5 Turboを大きく上回る
3件のコメント
うわ、405Bを動かすにはGPUをどう構成すればいいのか気になりますね
405Bは、直接のファインチューニングやサービング用途ではないようです。CEOがdistillationに何度も言及していたことを見ると、teacherモデルとして軽量モデルの品質を高めるためのファインチューニング用途なのではないかと思います。
Hacker Newsの意見
Llama 3.1モデルは性能が向上している
GPT-4oとLlama 3.1 405Bモデルの比較
Groq.comでは超低遅延で新しいモデルと対話できる
適切なハードウェアを使えば、自宅でもGPT-4oと競えるLLMを動かせる
Ollama、Huggingface、Groqなどでローカルにモデルを実行できる
Ollamaで70B版を実行してみた結果、とても良かった
Claude 3.5 Sonnetはコーディング作業に非常に優れている
オープンソースモデルの価格情報についての質問