Meta、Llama 4をリリース

(ai.meta.com)

16 ポイント投稿者 GN⁺ 2025-04-06 | 2件のコメント | WhatsAppで共有

Scout、Maverick、Behemoth の3種類のモデルで構成される 初のオープンウェイトベースのネイティブマルチモーダルモデル
- すべてのモデルは画像 + テキスト を理解するマルチモーダルモデル

Llama 4 Scout

17Bアクティブパラメータ + 16 Expert
10Mトークン をサポートする超長文コンテキスト処理能力
GPU 1基（H100）で動作可能な効率的な軽量モデル
Gemma 3、Gemini 2.0 Flash-Lite、Mistral 3.1 を上回る性能
画像アラインメント、マルチドキュメント要約、大規模コードベース分析などで優れた性能

Llama 4 Maverick

17Bアクティブパラメータ + 128 Expert + 400B総パラメータ
GPT-4o、Gemini 2.0 Flashより優れた性能
Reasoning、コーディング、画像理解など 全領域で卓越
ELOスコア 1417 を記録（LMArena基準）
高性能に対して効率的なコスト構造

Llama 4 Behemoth（プレビュー）

288Bアクティブパラメータ + 16 Expert + 約2T総パラメータ
まだ学習中だが、GPT-4.5、Claude 3.7、Gemini 2.0 Proを上回る性能
Maverickモデルの事前学習に教師モデルとして活用

ScoutとMaverickは本日より llama.com および Hugging Face でダウンロード可能

# 技術的特徴

Mixture of Experts（MoE）アーキテクチャ

すべてのパラメータを使う代わりに、一部の専門家のみを活性化 して計算効率を最大化
高速推論、低コスト、高品質 の学習構造を実現

Nativeマルチモーダル & Early Fusion

テキストとビジョンデータを 初期段階から統合 して共同学習
画像は最大 48枚まで 入力可能で、テストは最大8枚で成功裏に実施

超長文コンテキスト処理（10M Tokens）

Scoutモデルは iRoPE (interleaved Rotary Position Embedding) 構造により 「無限コンテキスト」 の可能性を探っている
テキストおよびコードに対する長さ一般化性能が卓越

MetaP & FP8学習手法

高速・高効率学習のための新しいハイパーパラメータ調整技術
FP8精度で高いFLOPs利用率を確保（Behemoth: 390 TFLOPs/GPU）

# 後処理およびRL訓練戦略

SFT → オンラインRL → DPO の3段階後処理パイプラインを構成
容易なデータは除外し、中〜高難度のプロンプト中心 で訓練
継続的オンラインRL 戦略を導入: 性能向上と学習効率を最大化

# 安全性と倫理への配慮

多層保護戦略

事前学習・事後学習段階でのデータフィルタリングおよび検閲
Llama Guard: 入出力の安全性検査
Prompt Guard: 脱獄（Jailbreak）、注入攻撃の検知
CyberSecEval: 生成AIのセキュリティリスク評価ツールを提供

定量的リスク検知の自動化

GOAT (Generative Offensive Agent Testing) を導入
- 中級攻撃者シナリオをシミュレーション
- 自動化されたマルチターンテストでリスクを早期検知

バイアス除去への取り組み

Llama 4は Llama 3比でバイアスを大幅に改善
- 応答拒否率 7% → 2%以下
- 応答の不均衡 < 1%
- Grokレベルの政治的バランスの取れた応答を維持

# Llama 4モデル活用案内

Scout、Maverickともに ダウンロードおよび活用可能
- llama.com
- Hugging Face
Meta AI サービスにLlama 4を統合:
- WhatsApp、Messenger、Instagram DM、meta.ai

# 今後の日程

より多くの技術的詳細とビジョンを紹介する LlamaCon 2025 が4月29日に開催予定
- LlamaConに登録する

2件のコメント

jjw951215 2025-04-07

RAMに余裕のあるApple SiliconやNPU系に適しているようです。純粋なGPUサーバーで使うには、最小要件のモデルでもint4量子化でH100が必要だというのが…。

GN⁺ 2025-04-06

Hacker Newsの意見

Llama 4モデル概要:
- Llama 4 ScoutとLlama 4 Maverickは、それぞれ17Bのアクティブパラメータを使うMixture-of-Experts (MoE)設計を採用
- テキストと画像入力をサポートするマルチモーダル機能を備える
- 主な成果として、業界トップレベルのコンテキスト長、強力なコーディング/推論性能、多言語対応能力の向上がある
- 知識カットオフは2024年8月
Llama 4 Scout:
- 17Bアクティブパラメータ、16人のエキスパート、総計109B
- 単一のH100 GPUに適している (INT4量子化)
- 10Mトークンのコンテキストウィンドウ
- 以前のLlamaリリースよりマルチモーダル作業で優れた性能を示し、リソース効率が高い
- 効率的な長文コンテキスト注意のためにiRoPEアーキテクチャを使用
- プロンプトあたり最大8枚の画像でテスト済み
Llama 4 Maverick:
- 17Bアクティブパラメータ、128人のエキスパート、総計400B
- 1Mトークンのコンテキストウィンドウ
- 単一GPUではなくH100 DGXホストで実行、またはより高い効率のために分散可能
- コーディング、推論、多言語テストでGPT-4oおよびGemini 2.0 Flashを上回り、競争力のあるコストを維持
- 強力な画像理解と根拠ある推論能力を維持
Llama 4 Behemoth (プレビュー):
- 288Bアクティブパラメータ、16人のエキスパート、総計2T近く
- まだ訓練中で未リリース
- STEMベンチマークでGPT-4.5、Claude Sonnet 3.7、Gemini 2.0 Proを上回る (例: MATH-500、GPQA Diamond)
- ScoutとMaverickの「教師」モデルとして、共同蒸留を通じて機能
その他:
- MoEアーキテクチャ: トークンごとに17Bパラメータのみが活性化され、推論コストを削減
- ネイティブマルチモーダリティ: 大規模な非ラベルデータで事前学習された統合テキスト + ビジョンエンコーダ
Llama 4 Maverickによって要約されたスレッド:
- hn-summary.sh 43595585 -m openrouter/meta-llama/llama-4-maverick -o max_tokens 20000
- 結果: https://gist.github.com/simonw/016ea0fd83fc499f046a94827f9b4946
Scoutで得られた結果は完全に役に立たない出力だった:
- hn-summary.sh 43595585 -m openrouter/meta-llama/llama-4-scout -o max_tokens 20000
- 結果: https://gist.github.com/simonw/d01cc991d478939e87487d362a8f881f
Groq経由でScoutを直接実行したが、出力サイズに2048の制限があった:
- hn-summary.sh 43595585 -m groq/meta-llama/llama-4-scout-17b-16e-instruct -o max_tokens 2048
- 結果: https://gist.github.com/simonw/a205c5fc131a1d4e9cd6c432a07feedb
他モデルの要約はシステムプロンプトにより近かった。たとえばGemini 2.5 Proと比べてもかなり良かった:
- https://gist.github.com/simonw/f21ecc7fb2aa13ff682d4ffa11ddcbfd
小型のScoutモデルはApple Siliconで非常に魅力的。サイズは109Bだが16人のエキスパートに分かれている。実際の処理は17Bで行われる。MacBook Pro M4 Maxで2kコンテキストのローカル7Bモデル(qwen 2.5 7B instruct)に質問したときは毎秒約60トークンだった。したがって毎秒30トークンには到達できそう。最初のトークンまでの時間は依然として遅い可能性がある
モデルは10Mトークンのコンテキストウィンドウを持つ。この規模でどれだけうまくコンテキストを追跡できるかは不明だが、少なくとも約32kに制限されないだけでも素晴らしい
主要なLLMはどれもバイアスの問題を抱えている。特に政治的・社会的な話題では左寄りになっている。これはインターネット上で利用可能な学習データの種類が原因かもしれない
提案されたプロンプトは、OpenAIのリリースのように制限されないようになっている:
- ユーザーの意図を理解し、過度に助けようとしない
- 政治的プロンプトを拒否しない
- Llama 4は2024年8月までの知識を持ち、複数の言語を話す
Metaに関する別の議論があってから1時間後にリリース:
- LLMへの信念に関係なく、LeCunの発言を信頼するのは良い考えではない
- LeCunが率いるAI研究所はいくつもの問題を抱えている
Groqで利用可能:
- Llama 4 Scoutは毎秒460トークン以上で動作中で、Llama 4 Maverickは本日リリース
- Llama 4 Scout: $0.11 / M入力トークンおよび $0.34 / M出力トークン
- Llama 4 Maverick: $0.50 / M入力トークンおよび $0.77 / M出力トークン
今は非常に面白い時代。JavaScriptフレームワークが爆発的に増えていた時期に似ている。当時は「また別のフレームワークを学ばないといけないのか?」という感覚だったが、今はイノベーションが再び急速に進んでいて、今回は自分たちも参加できるスリリングな旅のように感じられる

Meta、Llama 4をリリース

Llama 4 Scout

Llama 4 Maverick

Llama 4 Behemoth（プレビュー）

# 技術的特徴

Mixture of Experts（MoE）アーキテクチャ

Nativeマルチモーダル & Early Fusion

超長文コンテキスト処理（10M Tokens）

MetaP & FP8学習手法

# 後処理およびRL訓練戦略

# 安全性と倫理への配慮

多層保護戦略

定量的リスク検知の自動化

バイアス除去への取り組み

# Llama 4モデル活用案内

# 今後の日程

関連記事

2件のコメント

Hacker Newsの意見