Llama 3モデルの紹介
- MetaがLlama 3モデルを公開。8Bと70Bの事前学習版および命令チューニング版の両方を提供し、さまざまなアプリケーション開発を支援する。
- Llama 3はMeta AIに統合され、コーディング作業や問題解決に活用できる。これにより、Llama 3の性能を直接体験できる。
- Llama 3は、エージェント開発やAIベースのアプリケーション開発に必要な機能と柔軟性を提供する予定。
Llama 3の性能向上
- Llama 3は、言語のニュアンス、文脈理解、翻訳、対話生成といった複雑な作業で優れた性能を示す、公開アクセス可能な最先端モデル。
- 拡張性と性能が向上し、Llama 3は多段階の作業を容易に処理できる。改善された事後学習プロセスにより、誤拒否率を大幅に下げ、応答の整合性を改善し、モデル回答の多様性を高めている。
- また、推論、コード生成、命令実行といった機能も大きく向上している。Llama 3でAIの未来を築いていける。
Llama 3モデルのベンチマーク
- Llama 3モデルは、データとスケールを新たな水準へ引き上げた。最近発表された24K GPUクラスタ2基で、15兆個以上のトークンデータを用いて学習されており、これはLlama 2で使われた学習データセットの7倍の規模で、コードは4倍多い。
- これにより、これまでで最も高性能なLlamaモデルが誕生し、Llama 2の2倍となる8Kコンテキスト長をサポートする。
責任あるLlama 3利用のための包括的アプローチ
- Llama 3の公開に合わせ、LLMを用いた責任ある開発に関する最も包括的な情報を提供するため、責任ある使用ガイド(RUG)が更新された。
- MLCommonsが発表した新しい分類法をサポートするよう最適化されたLlama Guard 2、Code Shield、Cybersec Eval 2を含め、信頼性と安全性のツールに関する更新が行われた。
- RUGに明記された原則に基づき、ユースケースや対象に合った独自のコンテンツガイドラインを基準として、LLMへのすべての入力と出力を徹底的に確認・フィルタリングすることを推奨している。
GN⁺の意見
- Llama 3の性能向上に加え、責任ある開発のためのガイドラインも併せて提供されている点が印象的。高性能なAIモデルであるほど、適切に利用するための取り組みも並行して進める必要がある。
- ただし、オープンソースプロジェクトの性質上、ガイドライン遵守を強制する方法はなさそうだ。開発者の自発的な協力が必要になりそうだ。
- Llama 3はGPT-4などOpenAIの最新モデルに匹敵する性能を示すことが期待されるが、まだ客観的なベンチマーク結果は公開されていない。さまざまなタスクでの実際の性能が気になる。
- オープンソースプロジェクトであるだけに、Meta以外のさまざまな組織や開発者がLlama 3を活用した興味深いプロジェクトを披露すると期待される。Llama 3の潜在力を確認できる機会になりそうだ。
1件のコメント
Hacker Newsの意見
Metaがオープンソースのアプローチを採用し、モデルの重み、トークナイザー、学習データに関する情報などを共有していることに感謝する意見がある。Metaのこのようなオープンなアプローチのおかげで、コンシューマー向けハードウェア上でローカルにかなりまともなモデルを実行できるようになった。
Llama 3の公開に合わせて、MetaはRay-Ban MetaスマートグラスでマルチモーダルなMeta AIを試せるようになると発表した。従来のコンピューター/スマートフォンのインターフェースは、いくつかのニッチなアプリケーションを除けば消えていき、その代わりに誰もが他人とやり取りするのと同じように自然に対話できる、自分専用のAIアシスタントを持つようになるという意見が示された。
コンシューマー向けの24GB GPUにちょうど合うモデル、たとえば8ビット量子化された20Bモデルや4ビット量子化できる40Bモデルを見たいという意見がある。MetaがLlama 1以降、30Bモデルの公開をやめたのは残念だという。
Llama 3のモデルカードには、他のLlamaモデルとの比較ベンチマーク結果が含まれている。Llama 2と比べたLlama 3の劇的な性能向上は印象的であり、コンテキストウィンドウを8kへと2倍に拡張したことで、多くの新たな機会が開かれそうだ。
ZuckerbergがLlama 3についてインタビューを受けたという情報も共有された。