Muse Spark: 個人超知能へと拡張するMetaのマルチモーダル推論モデル
(ai.meta.com)- Meta Superintelligence Labsが開発したMuse Sparkは、ツール利用、視覚的思考連鎖、マルチエージェント協調をサポートするマルチモーダル推論モデル
- 個人超知能(personal superintelligence) に向けた第一歩として、meta.aiとMeta AIアプリで一部ユーザーに非公開APIプレビューの形で提供中
- モデルは事前学習、強化学習、テスト時推論の3軸に沿って拡張され、Llama 4比で10倍以上効率的な学習性能を達成
- Contemplatingモードを通じて並列エージェントベースの高難度推論を行い、Gemini Deep ThinkやGPT Pro級の高度な思考能力を実現
- MetaはMuse Sparkを基盤に、安全性と効率性を兼ね備えたパーソナライズド超知能モデルへ発展させることを目指す
Muse Spark概要
- Muse SparkはMeta Superintelligence Labsが開発したマルチモーダル推論モデルで、ツール利用、視覚的思考連鎖(visual chain of thought)、マルチエージェントオーケストレーション機能をサポート
- MetaのAI研究全体を再構築した最初の成果物であり、個人超知能(personal superintelligence) に向けた第一歩として紹介されている
- 研究、モデル学習、インフラ(例: Hyperionデータセンター)全般にわたって拡大投資を進めている
- 現在meta.aiとMeta AIアプリで利用可能で、一部ユーザーには非公開APIプレビューを提供
個人超知能のための機能
- Muse Sparkはマルチモーダル認識、推論、健康、エージェント型タスクで競争力のある性能を持つ
- 長期的なエージェントシステムやコーディングワークフローなど、一部領域の性能ギャップ解消に向けて継続的に投資中
- Contemplatingモードは複数のエージェントを並列に動作させて複雑な問題を解決し、Gemini Deep ThinkやGPT Proのような最前線モデルの高難度推論モードに対応
- Humanity’s Last Examで58%、FrontierScience Researchで38%の性能を達成
- Contemplatingモードはmeta.aiで段階的に展開予定
主な応用分野
- Muse Sparkは、ユーザーの世界を理解し相互作用する個人超知能へ発展するための基盤を提供
- マルチモーダル統合を通じて視覚情報とツールを組み合わせ、STEMの視覚問題、エンティティ認識、位置特定などで高い性能を達成
- 例: ミニゲーム生成、家電製品の問題解決時に動的注釈機能を提供
- 健康分野では1,000人以上の医師と協力して学習データを構築し、事実に基づく包括的な健康推論が可能
- 食品の栄養成分、運動時に活性化される筋肉などの健康情報を視覚的に説明するインタラクティブディスプレイを生成可能
- 例示プロンプトでは、ヨガのポーズ評価、食事プラン提案の可視化、コーヒーマシンの使い方チュートリアルなど、個人向けの視覚的インタラクション機能を実演
拡張軸
- Muse Sparkの拡張は事前学習、強化学習、テスト時推論の3軸を中心に進む
-
事前学習
- モデルのマルチモーダル理解、推論、コーディング能力の基盤を形成する段階
- 直近9か月でモデル構造、最適化、データキュレーションを改善し、計算効率を大幅に向上
- 同等性能の達成に必要な学習FLOPsがLlama 4 Maverick比で10倍以上減少し、主要競合モデルより効率的
-
強化学習
- 事前学習後にモデル能力を拡張する段階で、大規模RLの不安定性を解消し、予測可能な性能向上を確保
- RL計算量(ステップ数)の増加に応じてpass@1とpass@16指標が対数線形的に成長し、モデルの信頼性と多様性を同時に改善
- 学習に含まれていない評価セットでも精度が向上し、汎化性能を実証
-
テスト時推論
- モデルが応答前に**「考える」過程**を行うよう訓練
- 効率的なトークン使用のため、思考時間ペナルティ(thinking time penalty) とマルチエージェント協調を活用
- RL学習は思考時間にペナルティを課しつつ正確性を最大化し、結果として**「思考圧縮(thought compression)」**現象が発生
- より少ないトークンで問題を解決した後、再び拡張された思考で性能を強化
- マルチエージェント並列推論により、遅延(latency)を増やさずに性能向上を達成
安全性評価
- Muse Sparkはデュアルユース科学分野を含む幅広い推論能力を持つため、展開前に広範な安全性評価を実施
- MetaのAdvanced AI Scaling Framework v2を基に、脅威モデル、評価プロトコル、展開基準を定義
- 生物・化学兵器などの高リスク領域では強い拒否(refusal)行動を示し、データフィルタリング、安全重視の追加学習、システムレベルの保護策で強化
- サイバーセキュリティおよび統制喪失(Loss of Control)領域では、危険シナリオを実現する自律能力はない
- 全体評価の結果、Muse Sparkは測定されたすべてのフロンティアリスクカテゴリで安全基準内にある
- Apollo Researchの外部評価では、Muse Sparkは評価認識(evaluation awareness) の水準が最も高いモデルとして観察された
- 一部の状況で自分が評価されていることを認識し、正直に振る舞うべきだと推論
- ただし、この認識が実際の行動に与える影響は限定的で、危険能力とは無関係の一部アラインメント評価でのみわずかな影響が確認された
- Metaはこれをリリース阻害要因とは見なしておらず、追加研究の必要性のみを示している
結論
- Muse Sparkは予測可能かつ効率的な拡張経路の上にあり、今後より強力な個人超知能モデルへ発展する予定
- Metaは継続的に改良されたモデルを公開し、パーソナライズド超知能時代への前進を目指す
1件のコメント
Hacker Newsのコメント
なぜ人々がこれをけなすのか分からない。もしこのモデルが Opus 4.6 に近いか、少し上回るなら、Meta が先端AI企業と競争可能なモデルを作ったということだ
もちろんコストはかなりかかっただろうが、ここから コーディングエージェント へ発展させるのもそう遠い話には見えない。さらに Meta の立場では、IG、WhatsApp、VR など自社製品全体に SATA モデルを直接使えるので、長期的には財務面でも助けになるだろう
Simon Willisonの記事を見て Pelicans の例を確認した。meta.ai でも直接触ってみたが、かなり良かった。Python Code Interpreter コンテナ と container.visual_grounding という画像分析ツールが特に面白かった
今回の現象は 19世紀の 鉄道ブーム に似ていると思う。複数の企業が同程度のAIを作れるなら、参入障壁(モート) は消え、結局価格は下がるだろう。投資資金を回収できないかもしれない
内部ベンチマークを回してみたが、まったく印象的ではない。OpenAI、Anthropic、Gemini と比べられる水準ではない。技術的な質問に対する分析上の誤りも多かった
「Ask Meta AI…」入力欄を押してみたら、ログイン要求と Facebook/Instagram 連携 の手続きが続いた。典型的な ダークパターン に感じる。OpenAI はこのあたりをずっとうまく処理している
もし Meta が再び フロンティアモデル を手にしたのなら、今度は彼らの 戦略の方向性 が気になる。以前のような オープンエコシステムの哲学 を捨てたのではないかと疑っている
llama4 は振るわなかったが、その戦略を維持していれば今よりはるかに先に進んでいた気がする。他社はすでに エコシステム を築いているが、Meta にはそれがない。
再び会話の中心に戻るには、OpenCode のようなプロジェクトに10億ドルほど投じて、オープンエコシステムを復活させるべきだ。そうでなければ単なる クローズドな社内モデル のままだろう
初めて 図面ベースの視覚推論テスト をしてみたが、ChatGPT、Claude、Gemini、Grok の中では Gemini だけが成功 した。ところが Muse Spark は完璧にやってのけた。PDF から関連ページを抽出してインライン表示し、正確な答えを出した
まだ単に運が良かっただけかもしれないが、第一印象があまりに良かったので引き続きテストするつもりだ。ただし Meta の データ利用ポリシー は非常に攻撃的なので、機密性の高い資料には向いていない。
有料プランで 学習へのデータ利用除外オプション を提供してくれるといい。無料サービスの代わりにデータで収益化する構造は不安だ
このモデルは GPT 5.4 / Gemini 3.1 Pro / Opus 4.6 に近い。コーディングは OpenAI、テキスト推論は Google、Humanity’s Last Exam は Anthropic が先行している。それでも Meta が再び フロンティア研究所 に戻ってきたと見てよさそうだ。
今は 3.5頭立ての競馬 のような状況で、次のモデルが楽しみだ。競争が増えるのは良いことだ。Grok 4.2 はもう表から外すべきかもしれない
「Personal」とは結局、Meta が 個人データを広告に活用する という意味だ
「visual chain of thought」 という表現が興味深い。これはユーザーが 推論過程を視覚的に見られる という意味なのか、それともモデルが 画像ベースで思考する という意味なのか分かりにくい。後者なら本当に革新的だろう