- Llama 3の最初の2つのモデル(事前学習済みおよび命令微調整済みの8Bと70Bモデル)を公開
- 幅広い業界ベンチマークで最先端の性能を示し、推論強化などの新機能を提供
- 現在利用可能な最高のクローズドモデルと同等レベルの最高のオープンモデルの構築を目指す。開発者のフィードバックを反映し、迅速かつ高頻度にリリースすることを目標とする
- Llama Guard 2、Code Shield、CyberSec Eval 2などの新しい信頼性・安全性ツールを導入
- 今後数か月以内に、新機能、より長いコンテキストウィンドウ、追加のモデルサイズ、性能向上などを導入する予定で、Llama 3の研究論文も共有予定
- AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM、Snowflakeなどで近日中に利用可能になる予定で、AMD、AWS、Dell、Intel、NVIDIA、Qualcommなどのハードウェアプラットフォームでもサポートされる予定
- Llama 3技術で構築されたMeta AIは、いまや世界最高水準のAIアシスタントの1つであり、ユーザーの知性を高め、負担を軽減できる
Llama 3の性能
- 8Bおよび70BパラメータのLlama 3モデルは、Llama 2と比べて大きな飛躍を遂げ、この規模におけるLLMモデルの新たな最高水準を達成
- 事前学習と事後学習の改善により、事前学習済みモデルおよび命令微調整済みモデルは、8Bおよび70Bパラメータ規模で現存する最高のモデルとなっている
- 事後学習プロセスの改善により、誤拒否率が大幅に低下し、アラインメントが改善され、モデル応答の多様性が増加
- また、推論、コード生成、命令追従などの機能が大幅に改善され、Llama 3はより高い制御性(Steerable)を備えるようになった
- Llama 3の開発過程では、標準ベンチマークでのモデル性能を確認するとともに、実運用シナリオでの性能最適化も追求
- そのため、12の主要ユースケースを扱う1,800件のプロンプトを含む、新しい高品質な人手評価セットを開発
- この評価セットにより、70Bの命令追従モデルが実運用シナリオにおいて、同規模の競合モデルに対して強力な性能を示すことが分かった
- 事前学習済みモデルもまた、この規模におけるLLMモデルの新たな最先端を達成
- 優れた言語モデルを開発するには、革新、拡張、シンプルさの最適化が重要だと考えている
- Llama 3プロジェクト全体を通じて、この設計哲学を採用し、モデルアーキテクチャ、事前学習データ、事前学習のスケーリング、命令微調整という4つの主要要素に注力
モデルアーキテクチャ
- Llama 3では、比較的標準的なデコーダ専用トランスフォーマーアーキテクチャを採用
- Llama 2と比較して、いくつかの重要な改善点がある
- Llama 3は、言語をはるかに効率的にエンコードする、128Kトークンの語彙を持つトークナイザーを使用し、モデル性能を大きく改善
- Llama 3モデルの推論効率を高めるため、8Bおよび70Bの両サイズでGrouped-Query Attention(GQA)を採用
- セルフアテンションが文書境界を越えないようマスクを使用し、8,192トークンのシーケンスでモデルを学習
学習データ
- 最高の言語モデルを学習させるには、大規模で高品質な学習データセットのキュレーションが最も重要
- Llama 3は、公開利用可能なソースから収集した15T超のトークンで事前学習
- 学習データセットはLlama 2に使われたものより7倍大きく、コードを4倍多く含む
- 将来の多言語ユースケースに備え、Llama 3の事前学習データセットの5%以上は、30以上の言語を対象とする高品質な非英語データで構成されている
事前学習のスケーリング
- Llama 3モデルで事前学習データを効果的に活用するため、事前学習のスケーリングに相当な努力を注いだ
- 特に、ダウンストリームベンチマーク評価のための一連の詳細なスケーリング則を開発
- これらのスケーリング則により、最適なデータミックスの選択や学習計算資源を最大限に活用する方法について、十分な情報に基づく意思決定が可能になる
命令微調整
- チャット用途で事前学習済みモデルの潜在力を最大限に引き出すため、命令調整アプローチにも革新を加えた
- 事後学習へのアプローチは、教師あり微調整(SFT)、拒否サンプリング、近接方策最適化(PPO)、直接方策最適化(DPO)の組み合わせ
- SFTに使用されるプロンプトの品質と、PPOおよびDPOに使われる選好ランキングは、アラインされたモデルの性能に過度な影響を与える
Llama 3で構築する
- Metaのビジョンは、開発者がLlama 3をカスタマイズして関連ユースケースを支援し、ベストプラクティスを容易に採用し、オープンなエコシステムを改善できるようにすること
- 今回のリリースでは、Llama Guard 2およびCybersec Eval 2とともに、更新されたコンポーネントを含む新しい信頼性・安全性ツールと、LLMが生成した安全でないコードをフィルタリングする推論時ガードレールであるCode Shieldを導入
- また、Llama 3は、LLMの作成、微調整、実験を容易に行える新しいPyTorchネイティブライブラリ
torchtune とともに開発された
責任ある開発と展開のためのシステムレベルアプローチ
- Llama 3モデルは、できる限り有用でありながら、業界最高水準の責任ある展開アプローチを確保するよう設計されている
- そのために、Llamaの責任ある開発と展開のための新たなシステムレベルアプローチを採用
- Llamaモデルを、開発者が固有の最終目標を念頭に置いて設計するシステムの基本要素と見なしている
- 命令微調整は、モデルの安全性を確保するうえで重要な役割を果たす
- 命令微調整済みモデルは、内部および外部の取り組みを通じて安全性に関するレッドチームテストを受ける
- こうした取り組みは反復的に行われ、リリースされるモデルの安全性微調整に活用される
- Llama Guardモデルは、プロンプトと応答の安全性の基盤となり、アプリケーション要件に応じて新しい分類を容易に作成できる
- 新しいLlama Guard 2は、業界標準サポートのために最近発表されたMLCommons分類法を使用
- CyberSecEval 2は、LLMのコードインタープリタ悪用傾向、攻撃的なサイバーセキュリティ機能、プロンプトインジェクション攻撃に対する脆弱性の測定を追加し、前バージョンを拡張
- Code Shieldは、LLMが生成した安全でないコードに対する推論時フィルタリングをサポートし、安全でないコード提案、コードインタープリタの悪用防止、セキュアなコマンド実行に関連するリスクを軽減
Llama 3の大規模展開
- Llama 3は、クラウドプロバイダーやモデルAPIプロバイダーなどの主要プラットフォームで近日中に利用可能になる予定
- ベンチマークによれば、トークナイザーはLlama 2と比べて最大15%少ないトークンを生成し、トークン効率が向上
- また、Grouped-Query Attention(GQA)がLlama 3 8Bにも追加された
Llama 3の今後の計画
- Llama 3 8Bおよび70Bモデルは、Llama 3リリース計画の始まりにすぎない
- 今後数か月の間に、マルチモーダル、多言語対話能力、はるかに長いコンテキストウィンドウ、全体的にさらに強力な機能などを備えた複数のモデルをリリースする予定
- Llama 3の学習が完了した時点で、詳細な研究論文も公開する予定
2件のコメント
とりあえず他のクラウドは分かりませんが、Azure AI Studio には Mixtral 8x22B とともに Llama-3(Meta-Llama-3-8B、Meta-Llama-3-70B、Meta-Llama-3-70B-Instruct、Meta-Llama-3-8B-Instruct)がすでに追加されていますね。