MetaのLlama 3言語モデルを公開
(llama.meta.com)- MetaのLlamaページでは、Llamaモデルファミリーを、デプロイのしやすさ、コスト効率、性能、大規模拡張を目指したオープンソースAIとしてまとめて紹介しており、Llama 4とLlama 3系統をあわせて扱っている
- Llama 4 MaverickとLlama 4 Scoutは、テキストとビジョントークンを一緒に事前学習するearly fusionベースのネイティブマルチモーダルモデルで、どちらも10Mトークンのコンテキストを掲げている
- Llama 3系統は3.1・3.2・3.3に分かれ、8B・70B・405B、1B・3B・11B・90B、70Bなど、サイズやテキスト・エッジ・マルチモーダル用途別の選択肢を提供する
- 性能比較にはMMLU Pro、GPQA Diamond、LiveCodeBench、MMMU、ChartQA、DocVQA、MMLU Multi、MTOBなどが含まれ、Llama 4 MaverickはMMLU Pro 80.5、Scoutは74.3を記録している
- StoqueとShopifyの事例では、技術サポートの反復問い合わせ50%削減、社内満足度11%向上、トークン処理量76%増加、JSON出力ベースの計算コスト33%削減といった導入結果が示されている
Llamaモデルファミリーとバージョン別の選択肢
- Llamaは、自社の要件に合わせて構築できるモデルファミリーであり、容易なデプロイ、コスト効率、性能、数十億ユーザー規模への拡張を目指している
- 最新のLlamaモデルの主要な軸は、ネイティブマルチモーダル、高度な推論、長いコンテキストウィンドウである
- モデルカードとプロンプト形式はModel overviewで確認できる
-
Llama 4: ネイティブマルチモーダルと10Mコンテキスト
- Llama 4は、early fusionによりラベルなしのテキストとビジョンデータを一緒に事前学習するネイティブマルチモーダルモデルファミリーである
- Llama 4 Maverickは画像とテキストの理解をサポートし、10Mトークンのコンテキストで長文タスクを処理する
- メモリ、パーソナライズ、マルチモーダルアプリケーションが主な用途である
- Llama 4 Scoutは、テキストと視覚知能を提供するモデルで、単一のH100 GPUでの効率性と10Mコンテキストウィンドウを打ち出している
- 長文書分析がScoutの主要な用途として示されている
- 詳細はLlama 4モデル文書で提供されている
-
Llama 3: サイズと用途別のモデルファミリー
- Llama 3は、ファインチューニング、蒸留、どこでもデプロイ可能なオープンソースAIモデルファミリーである
- Llama 3.3は70Bで提供される多言語オープンソース大規模言語モデルであり、405B級の性能と品質をより低コストで体験できると案内されている
- 合成データ生成のようなテキストベース用途に適しており、詳細はLlama 3.3モデル文書で確認できる
- Llama 3.2は、エッジ用途向けの柔軟でコスト効率の高いモデルファミリーである
- 1Bと3Bは軽量でコスト効率が高く、どこでも実行できる
- 11Bと90Bは高解像度画像を推論し、テキストを出力できるマルチモーダルモデルである
- 詳細はLlama 3.2モデル文書で提供されている
- Llama 3.1は柔軟性と制御性のためのオープン基盤モデルで、8B・70B・405Bのサイズで提供される
- 一般知識、調整可能性、数学、ツール使用、多言語翻訳能力を含み、テキスト要約、多言語エージェント、コーディング用途に使われる
- 詳細はLlama 3.1モデル文書で確認できる
性能指標と実導入の結果
-
Llama 4のベンチマークと評価条件
- Llama 4の能力は、ネイティブマルチモーダル、長いコンテキスト、画像グラウンディングとして整理されている
- すべてのLlama 4モデルは、ラベルなしのテキストとビジョントークンを大量に一緒に事前学習できるよう、early fusionを活用している
- ベンチマークではLlama 4 MaverickとLlama 4 Scoutを比較している
- 推論: MMLU ProはMaverick 80.5、Scout 74.3で、GPQA DiamondはMaverick 69.8、Scout 57.2である
- コーディング: LiveCodeBenchはMaverick 43.4、Scout 32.8である
- マルチモーダル画像: MMMUはMaverick 73.4、Scout 69.4で、ChartQAはMaverick 90.0、Scout 88.8、DocVQAは両者とも94.4である
- 多言語: MMLU MultiはMaverick 84.6、Scout 74.3である
- 長コンテキスト: MTOB Half BookはMaverick 54.0 / 46.4、Scout 42.2 / 36.6で、MTOB Full BookはMaverick 50.8 / 46.7、Scout 39.7 / 36.3である
- 効率: 100万トークンあたりのコストは、どちらも$0.19–$0.49と示されている
- 方法論と注記によれば、Llamaの結果はtemperature 0の0-shot評価であり、majority votingや並列テスト時の計算資源は使っていない
- GPQA DiamondやLiveCodeBenchのように分散が大きいベンチマークは、不確実性を減らすため複数の生成結果を平均している
- 長コンテキストの専門評価は一般的なモデルでは従来あまり報告されておらず、内部実行結果を共有している
- Llama 4 Maverickの$0.19/Mtokコストは、分散推論を前提とした3:1 blended推定値であり、単一ホストでは$0.30–$0.49/Mtokで提供可能と見込まれている
-
StoqueとShopifyの活用事例
- StoqueはLlamaによって社内インテリジェンスを変革し、チームがより速くインサイトを見つけ、摩擦を減らし、大規模でもより効率的に働けるようにした
- 技術サポートの反復問い合わせは50%減少し、管理およびサポート作業の完了は30%増加した
- 社内ユーザー満足度は11%向上した
- ShopifyはLlamaを商品ページ生成、コンテンツのローカライズ、サポート自動化に利用している
- 以前のモデルよりトークン処理量が76%高く、意図検出でMacro-F1精度97.7%を記録した
- JSON出力により計算コストを33%削減した
- 生成AIのガードレールは、システムレベルの保護によって潜在的リスクを事前に特定・緩和し、開発者が生成AIをより責任ある形でデプロイできるよう支援する役割を担う
1件のコメント
Hacker News の意見
参考になるリンク: https://ai.meta.com/blog/meta-llama-3/, https://about.fb.com/news/2024/04/meta-ai-assistant-built-wi..., https://twitter.com/karpathy/status/1781028605709234613
Meta はコンソールも公開した: https://www.meta.ai/
Meta 製品群全体への Meta AI 統合も発表した: https://about.fb.com/news/2024/04/meta-ai-assistant-built-wi...
ただし GPT-4-Turbo や Claude Opus との比較を入れていないところを見ると、最前線のモデルとは距離がありそうで、LLM Arenaで性能がどう出るかを見る必要がある
大きな差が出るのは、非常に難しい推論ベンチマークに限られる可能性が高い。Llama は重みが公開されているため、Opus と違ってファインチューニングや LoRA が多く出てくるはず
国家や大企業が自社モデル学習用 GPU に資金を注ぎ込むより Llama-3/Llama-4 を使うようになれば、GPU 成長期待が抑えられ、OpenAI は 1000億ドル調達の根拠が弱まり、Google の AI 優位性もぼやける。AMD と Intel は Nvidia の学習用 GPU に追いつくより、AI 推論チップに集中できる
400B を超える最大級のモデルがまだ学習中で、今後数か月以内にマルチモーダル、多言語会話、はるかに長いコンテキストウィンドウ、全般的により強い能力を備えた複数のモデルをリリースする予定だという
公開ベンチマークは大まかな指標としては有用だが、開発者は自分のユースケースに合わせたカスタムベンチマークを回すべき
Replicate が Llama 3 API を素早く作っており https://replicate.com/blog/run-llama-3-with-an-api、promptfoo https://github.com/typpo/promptfooで Llama 3、Mixtral、GPT、Claude などを比較できる。たとえば Replicate の
meta/meta-llama-3-8b-instruct、meta/meta-llama-3-70b-instruct、OpenAIgpt-4-turbo、Anthropicclaude-3-opus-20240229などを同じプロンプトで評価可能まだテスト中だが、ランダムなプログラミング質問のセットでは Llama 3 8B がかなり良さそうに見える。ollama も Llama 3 8B をサポートしたので、
ollama:chat:llama3でローカル評価がしやすくなった良いテストは、ランダムな a、b、c に対して二次方程式を解くような、単純だが実際の適用を見る必要がある問題。どのモデルも知っていそうなアルゴリズムなのに間違え、その後は検証したふりをして誤答を繰り返すこともある。LLAMA 3 も何度か誤りを指摘した後、「正確な解を見つけ、複数の方法で検証した」と言ったが、実際の解は最初と同じく間違っており、検証の試みもなかった
assistantが付く現象があったが、今は動くはずollama run llama3で実行でき、複数の量子化版とテキスト/70B モデルもアップロード中Llama 3 70B が有名な LMSYS Chatbot Arena のリーダーボードに5位でデビューし、Claude 2 Sonnet、Bard(Gemini Pro)、Command R+ と同率で、Claude 2 Haiku や以前の GPT-4 バージョン群より上にいる
まだスコアの不確実性が大きいため正確な順位は時間が経たないと分からず、変わる可能性もある。Llama 3 8B は12位で、Claude 1、Mixtral 8x22B、Qwen-1.5-72B と同率。最新順位は https://arena.lmsys.org/で見られる
英語専用リーダーボードでは Llama 3 70B が GPT-4 や Claude Opus とともに最上位圏にとどまっており、さらに印象的。安全性チューニングが以前ほど強くなくなり、プロンプト拒否が減った影響かもしれないが、それでも実質的に有用な改善。このペースなら 400B モデルは事実上支配的になる可能性が高い
中国語ラップを生成させてみたところ、かなり良いものを作ったが、完了直後に応答が削除され、「まだ中国語を理解できないが取り組んでおり、中国語で会話できるようになったらメッセージを送る」という文言に置き換わった
他の言語も同様に、非英語生成はできるが、終わると応答が消され、同じ案内文に置き換えられる
ブログには良い詳細情報が多い: https://ai.meta.com/blog/meta-llama-3/
400B版も登場予定で、GPT-4やClaude Opusよりかなり良くなりそうに見える。分散化と公開ソフトウェアが勝つ流れだ
もちろんベンチマークされたのは中間チェックポイントで、学習はまだ進行中だ
ベンチマークを盲信すべきではないが、GPT-4やOpusを上回るという主張はない。中間チェックポイントなので、今後上回る可能性はある
それにオープンソースでもない
Zuck、Yann、そしてMetaチームがオープンなアプローチを取り、モデル重み、トークナイザー、学習データ情報などを共有してくれていることに本当に感謝している
彼らこそが、llama.cppのようなプロジェクトを通じて、コンシューマー向けハードウェア上でかなりまともなモデルをローカル実行し、検閲や統制を避けられるようにした公開研究の爆発的発展の最大の原動力だ
OpenAIやAnthropicの統制に引っかかるようなリクエストをしたいわけではないが、こうした強力な技術が壁の向こうにあり、ゲートキーパーが使い方を統制する状況は嫌だ。オープン性を信じる人や会社は多いが、数千億ドル規模の資本と持続可能なキャッシュフロー、数十億ドル相当のGPUを持つところがこうするなら、影響ははるかに大きい。Zuckはこの道を選ぶ必要はなかったし、HBS/McKinsey式のプロ経営者がFacebookを運営していたなら、ここまで開放していなかった可能性が高い。AI安全リスクという名目で王冠の宝石を中央集権的なAPIの背後に隠さなかったおかげで、全員が大きく得をしている
Joel Spolskyが以前話していた戦略だが、Metaが具体的にどんなAIモデルの補完財を売れるのかははっきりしない。それでも、何らかの形で戦略的な選択であることは明らかに見える
Zuckについて批判すべき点は多いが、ミッションへの本気度の欠如はその1つではない
Metaがここでその松明を受け継いでいるのはうれしいし、続いてほしい
有料のChatGPT PlusのGPT-4との直接比較がなかったので、数値を突き合わせてみた
Llama 3 8B / Llama 3 70B / GPT-4基準で、MMLUは68.4 / 82.0 / 86.5、GPQAは34.2 / 39.5 / 49.1、MATHは30.0 / 50.4 / 72.2、HumanEvalは62.2 / 81.7 / 87.6、DROPは58.4 / 79.7 / 85.4だ
ほとんどの人が使っている無料版ChatGPTは、GPT-4よりはるかに弱いGPT-3.5ベースだ。最新のGPT-3.5の包括的な評価値は見つけられなかったが、Llama 3 70Bなら余裕で上回り、8Bもかなり近いところまで行くと思う。この程度のモデルをローカルで実行し、修正できるというのは非常に面白い。GPT-4の数値は https://github.com/openai/simple-evals の
gpt-4-turbo-2024-04-09 (chatgpt)基準だLlama 3 400B Base / Instruct基準で、MMLU 84.8 / 86.1、GPQA - / 48.0、MATH - / 57.8、HumanEval - / 84.1、DROP 83.5 / - だ
IDE内でコーディング用に試してみたい人がいれば、コーディング補助ツール https://www.double.bot にLlama 3 70Bを追加しておいた
Zuckのインタビューも出ている: https://twitter.com/dwarkesh_sp/status/1780990840179187715
当時の必要量の2倍を安全策として確保した結果、偶然にもこの規模のLLMを学習できるGPU容量を持つ数少ない企業の1つになった
モデルカードには、Llama 2 を含む他の Llama モデルとのベンチマーク結果があります: https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md...
Llama 2 と比べた Llama 3 の性能向上は劇的で、印象的です。Llama 2 13B と比較してもそうですし、コンテキストウィンドウが 8k に倍増したことも、多くの新しい機会を開くはずです
それでも公開された性能指標は印象的で、Meta がこれらのモデルを公開したことは称賛に値します