- Scout、Maverick、Behemoth の3種類のモデルで構成される 初のオープンウェイトベースのネイティブマルチモーダルモデル
- すべてのモデルは画像 + テキスト を理解するマルチモーダルモデル
Llama 4 Scout
- 17Bアクティブパラメータ + 16 Expert
- 10Mトークン をサポートする超長文コンテキスト処理能力
- GPU 1基(H100)で動作可能な効率的な軽量モデル
- Gemma 3、Gemini 2.0 Flash-Lite、Mistral 3.1 を上回る性能
- 画像アラインメント、マルチドキュメント要約、大規模コードベース分析などで優れた性能
Llama 4 Maverick
- 17Bアクティブパラメータ + 128 Expert + 400B総パラメータ
- GPT-4o、Gemini 2.0 Flashより優れた性能
- Reasoning、コーディング、画像理解など 全領域で卓越
- ELOスコア 1417 を記録(LMArena基準)
- 高性能に対して効率的なコスト構造
Llama 4 Behemoth(プレビュー)
- 288Bアクティブパラメータ + 16 Expert + 約2T総パラメータ
- まだ学習中だが、GPT-4.5、Claude 3.7、Gemini 2.0 Proを上回る性能
- Maverickモデルの事前学習に教師モデルとして活用
# 技術的特徴
Mixture of Experts(MoE)アーキテクチャ
- すべてのパラメータを使う代わりに、一部の専門家のみを活性化 して計算効率を最大化
- 高速推論、低コスト、高品質 の学習構造を実現
Nativeマルチモーダル & Early Fusion
- テキストとビジョンデータを 初期段階から統合 して共同学習
- 画像は最大 48枚まで 入力可能で、テストは最大8枚で成功裏に実施
超長文コンテキスト処理(10M Tokens)
- Scoutモデルは iRoPE (interleaved Rotary Position Embedding) 構造により 「無限コンテキスト」 の可能性を探っている
- テキストおよびコードに対する長さ一般化性能が卓越
MetaP & FP8学習手法
- 高速・高効率学習のための新しいハイパーパラメータ調整技術
- FP8精度で高いFLOPs利用率を確保(Behemoth: 390 TFLOPs/GPU)
# 後処理およびRL訓練戦略
- SFT → オンラインRL → DPO の3段階後処理パイプラインを構成
- 容易なデータは除外し、中〜高難度のプロンプト中心 で訓練
- 継続的オンラインRL 戦略を導入: 性能向上と学習効率を最大化
# 安全性と倫理への配慮
多層保護戦略
- 事前学習・事後学習段階でのデータフィルタリングおよび検閲
- Llama Guard: 入出力の安全性検査
- Prompt Guard: 脱獄(Jailbreak)、注入攻撃の検知
- CyberSecEval: 生成AIのセキュリティリスク評価ツールを提供
定量的リスク検知の自動化
- GOAT (Generative Offensive Agent Testing) を導入
- 中級攻撃者シナリオをシミュレーション
- 自動化されたマルチターンテストでリスクを早期検知
バイアス除去への取り組み
- Llama 4は Llama 3比でバイアスを大幅に改善
- 応答拒否率 7% → 2%以下
- 応答の不均衡 < 1%
- Grokレベルの政治的バランスの取れた応答を維持
# Llama 4モデル活用案内
- Scout、Maverickともに ダウンロードおよび活用可能
- Meta AI サービスにLlama 4を統合:
- WhatsApp、Messenger、Instagram DM、meta.ai
# 今後の日程
- より多くの技術的詳細とビジョンを紹介する LlamaCon 2025 が4月29日に開催予定
2件のコメント
RAMに余裕のあるApple SiliconやNPU系に適しているようです。純粋なGPUサーバーで使うには、最小要件のモデルでもint4量子化でH100が必要だというのが…。
Hacker Newsの意見
Llama 4モデル概要:
Llama 4 Scout:
Llama 4 Maverick:
Llama 4 Behemoth (プレビュー):
その他:
Llama 4 Maverickによって要約されたスレッド:
Scoutで得られた結果は完全に役に立たない出力だった:
Groq経由でScoutを直接実行したが、出力サイズに2048の制限があった:
他モデルの要約はシステムプロンプトにより近かった。たとえばGemini 2.5 Proと比べてもかなり良かった:
小型のScoutモデルはApple Siliconで非常に魅力的。サイズは109Bだが16人のエキスパートに分かれている。実際の処理は17Bで行われる。MacBook Pro M4 Maxで2kコンテキストのローカル7Bモデル(qwen 2.5 7B instruct)に質問したときは毎秒約60トークンだった。したがって毎秒30トークンには到達できそう。最初のトークンまでの時間は依然として遅い可能性がある
モデルは10Mトークンのコンテキストウィンドウを持つ。この規模でどれだけうまくコンテキストを追跡できるかは不明だが、少なくとも約32kに制限されないだけでも素晴らしい
主要なLLMはどれもバイアスの問題を抱えている。特に政治的・社会的な話題では左寄りになっている。これはインターネット上で利用可能な学習データの種類が原因かもしれない
提案されたプロンプトは、OpenAIのリリースのように制限されないようになっている:
Metaに関する別の議論があってから1時間後にリリース:
Groqで利用可能:
今は非常に面白い時代。JavaScriptフレームワークが爆発的に増えていた時期に似ている。当時は「また別のフレームワークを学ばないといけないのか?」という感覚だったが、今はイノベーションが再び急速に進んでいて、今回は自分たちも参加できるスリリングな旅のように感じられる