1 ポイント 投稿者 GN⁺ 19 일 전 | 1件のコメント | WhatsAppで共有
  • Meta Superintelligence Labsが開発したMuse Sparkは、ツール利用、視覚的思考連鎖、マルチエージェント協調をサポートするマルチモーダル推論モデル
  • 個人超知能(personal superintelligence) に向けた第一歩として、meta.aiとMeta AIアプリで一部ユーザーに非公開APIプレビューの形で提供中
  • モデルは事前学習、強化学習、テスト時推論の3軸に沿って拡張され、Llama 4比で10倍以上効率的な学習性能を達成
  • Contemplatingモードを通じて並列エージェントベースの高難度推論を行い、Gemini Deep ThinkやGPT Pro級の高度な思考能力を実現
  • MetaはMuse Sparkを基盤に、安全性と効率性を兼ね備えたパーソナライズド超知能モデルへ発展させることを目指す

Muse Spark概要

  • Muse SparkはMeta Superintelligence Labsが開発したマルチモーダル推論モデルで、ツール利用、視覚的思考連鎖(visual chain of thought)、マルチエージェントオーケストレーション機能をサポート
  • MetaのAI研究全体を再構築した最初の成果物であり、個人超知能(personal superintelligence) に向けた第一歩として紹介されている
  • 研究、モデル学習、インフラ(例: Hyperionデータセンター)全般にわたって拡大投資を進めている
  • 現在meta.aiとMeta AIアプリで利用可能で、一部ユーザーには非公開APIプレビューを提供

個人超知能のための機能

  • Muse Sparkはマルチモーダル認識、推論、健康、エージェント型タスクで競争力のある性能を持つ
  • 長期的なエージェントシステムやコーディングワークフローなど、一部領域の性能ギャップ解消に向けて継続的に投資中
  • Contemplatingモードは複数のエージェントを並列に動作させて複雑な問題を解決し、Gemini Deep ThinkやGPT Proのような最前線モデルの高難度推論モードに対応
    • Humanity’s Last Examで58%、FrontierScience Researchで38%の性能を達成
  • Contemplatingモードはmeta.aiで段階的に展開予定

主な応用分野

  • Muse Sparkは、ユーザーの世界を理解し相互作用する個人超知能へ発展するための基盤を提供
  • マルチモーダル統合を通じて視覚情報とツールを組み合わせ、STEMの視覚問題、エンティティ認識、位置特定などで高い性能を達成
    • 例: ミニゲーム生成、家電製品の問題解決時に動的注釈機能を提供
  • 健康分野では1,000人以上の医師と協力して学習データを構築し、事実に基づく包括的な健康推論が可能
    • 食品の栄養成分、運動時に活性化される筋肉などの健康情報を視覚的に説明するインタラクティブディスプレイを生成可能
  • 例示プロンプトでは、ヨガのポーズ評価、食事プラン提案の可視化、コーヒーマシンの使い方チュートリアルなど、個人向けの視覚的インタラクション機能を実演

拡張軸

  • Muse Sparkの拡張は事前学習、強化学習、テスト時推論の3軸を中心に進む
  • 事前学習

    • モデルのマルチモーダル理解、推論、コーディング能力の基盤を形成する段階
    • 直近9か月でモデル構造、最適化、データキュレーションを改善し、計算効率を大幅に向上
    • 同等性能の達成に必要な学習FLOPsがLlama 4 Maverick比で10倍以上減少し、主要競合モデルより効率的
  • 強化学習

    • 事前学習後にモデル能力を拡張する段階で、大規模RLの不安定性を解消し、予測可能な性能向上を確保
    • RL計算量(ステップ数)の増加に応じてpass@1とpass@16指標が対数線形的に成長し、モデルの信頼性と多様性を同時に改善
    • 学習に含まれていない評価セットでも精度が向上し、汎化性能を実証
  • テスト時推論

    • モデルが応答前に**「考える」過程**を行うよう訓練
    • 効率的なトークン使用のため、思考時間ペナルティ(thinking time penalty)マルチエージェント協調を活用
    • RL学習は思考時間にペナルティを課しつつ正確性を最大化し、結果として**「思考圧縮(thought compression)」**現象が発生
      • より少ないトークンで問題を解決した後、再び拡張された思考で性能を強化
    • マルチエージェント並列推論により、遅延(latency)を増やさずに性能向上を達成

安全性評価

  • Muse Sparkはデュアルユース科学分野を含む幅広い推論能力を持つため、展開前に広範な安全性評価を実施
  • MetaのAdvanced AI Scaling Framework v2を基に、脅威モデル、評価プロトコル、展開基準を定義
  • 生物・化学兵器などの高リスク領域では強い拒否(refusal)行動を示し、データフィルタリング、安全重視の追加学習、システムレベルの保護策で強化
  • サイバーセキュリティおよび統制喪失(Loss of Control)領域では、危険シナリオを実現する自律能力はない
  • 全体評価の結果、Muse Sparkは測定されたすべてのフロンティアリスクカテゴリで安全基準内にある
  • Apollo Researchの外部評価では、Muse Sparkは評価認識(evaluation awareness) の水準が最も高いモデルとして観察された
    • 一部の状況で自分が評価されていることを認識し、正直に振る舞うべきだと推論
    • ただし、この認識が実際の行動に与える影響は限定的で、危険能力とは無関係の一部アラインメント評価でのみわずかな影響が確認された
    • Metaはこれをリリース阻害要因とは見なしておらず、追加研究の必要性のみを示している

結論

  • Muse Sparkは予測可能かつ効率的な拡張経路の上にあり、今後より強力な個人超知能モデルへ発展する予定
  • Metaは継続的に改良されたモデルを公開し、パーソナライズド超知能時代への前進を目指す

1件のコメント

 
GN⁺ 19 일 전
Hacker Newsのコメント
  • なぜ人々がこれをけなすのか分からない。もしこのモデルが Opus 4.6 に近いか、少し上回るなら、Meta が先端AI企業と競争可能なモデルを作ったということだ
    もちろんコストはかなりかかっただろうが、ここから コーディングエージェント へ発展させるのもそう遠い話には見えない。さらに Meta の立場では、IG、WhatsApp、VR など自社製品全体に SATA モデルを直接使えるので、長期的には財務面でも助けになるだろう

    • 懐疑的な反応も理解できる。以前に llama 4 ベンチマーク誇張 事件があったからだ。今回のモデルも数か月前から存在していたが、当時は Gemini 2.5 Pro レベルだったため公開を見送っていたように見える
    • コーディングエージェント市場はすでに AnthropicOpenAI が注力している。Meta が狙うべき機会は、むしろ コンシューマー向けAI の領域だ。OpenAI は無料ユーザーとエンタープライズのどちらにリソースを使うか、近いうちに決断しなければならない時期だ
    • ベンチマークだけ見れば悪くないモデルだが、実際の プログラミング実用性 では Opus に及ばない。日常的なコーディング作業での有用性は、ベンチマークだけでは測り切れない。それでも競争が増えるのは良いことだ
    • 「Opus 4.6 を上回る」というのは事実ではない
    • Meta に対する 根本的な反感 を持つ人も多い。正当かどうかに関係なく、ただ Meta だから嫌うケースが多い
  • Simon Willisonの記事を見て Pelicans の例を確認した。meta.ai でも直接触ってみたが、かなり良かった。Python Code Interpreter コンテナcontainer.visual_grounding という画像分析ツールが特に面白かった

    • Alexandr Wang が、これが後で オープンソース として公開される可能性に言及していて期待している
    • 地域ごとに提供されるツールが違うようだ。自分には visual_grounding 機能がなく、このリンク にある機能だけにアクセスできた
    • Simon に聞いてみたい — これまで見たモデルの中で 「自転車に乗るペリカン」 を最もうまく作ったのはどのモデルなのか気になる
    • meta.ai でログインしないと使えないのは残念だ。Openrouter でも早く対応してほしい。それでも早く試したいと思えるくらい期待している
  • 今回の現象は 19世紀の 鉄道ブーム に似ていると思う。複数の企業が同程度のAIを作れるなら、参入障壁(モート) は消え、結局価格は下がるだろう。投資資金を回収できないかもしれない

    • だからこそ Anthropic は API 価格を高く維持し、自社製品のサブスクリプションを制限しているのだと思う。非技術系ユーザー のほうが長く残る点を狙った戦略だ
    • どうせ彼らは皆 政府と緊密につながって いるので、市場原理以上の支援を受けるだろう。たとえ失敗しても、その結果として オープンウェイトモデル が出てくる可能性がある。ただしそれらのモデルも数か月で旧式になる気がする
    • 逆に今のAIは スマートフォン並みに大衆的 で、蒸気機関並みに破壊的 だ。AI企業は世界最大級のソフトウェア企業へと成長しつつあり、市場には 数兆ドル規模の機会 がある
    • 本当の モートは計算資源とエネルギーへのアクセス にある。だから Elon Musk は自ら半導体工場を建てるのだ。HuggingFace にモデルがいくらあっても、実際に動かせる人はほとんどいない
  • 内部ベンチマークを回してみたが、まったく印象的ではない。OpenAI、Anthropic、Gemini と比べられる水準ではない。技術的な質問に対する分析上の誤りも多かった

    • さらにテストしたところ、初歩的な数学の誤り が多すぎた。Gemini でクロスチェックしたら、ほぼすべての簡単な問題で誤りが見つかった
    • それでも マルチモーダル の領域ではかなり良い。30億人が使うには十分な水準だが、科学分野 では依然として遅れている
    • 実のところ Gemini でさえ その会話に加われるレベルではないと思う
  • 「Ask Meta AI…」入力欄を押してみたら、ログイン要求と Facebook/Instagram 連携 の手続きが続いた。典型的な ダークパターン に感じる。OpenAI はこのあたりをずっとうまく処理している

  • もし Meta が再び フロンティアモデル を手にしたのなら、今度は彼らの 戦略の方向性 が気になる。以前のような オープンエコシステムの哲学 を捨てたのではないかと疑っている
    llama4 は振るわなかったが、その戦略を維持していれば今よりはるかに先に進んでいた気がする。他社はすでに エコシステム を築いているが、Meta にはそれがない。
    再び会話の中心に戻るには、OpenCode のようなプロジェクトに10億ドルほど投じて、オープンエコシステムを復活させるべきだ。そうでなければ単なる クローズドな社内モデル のままだろう

    • わざわざ新しいオープンハーネスは必要ないかもしれない。Anthropic がすでにそれをコミュニティに 無料で提供 しているのだから
  • 初めて 図面ベースの視覚推論テスト をしてみたが、ChatGPT、Claude、Gemini、Grok の中では Gemini だけが成功 した。ところが Muse Spark は完璧にやってのけた。PDF から関連ページを抽出してインライン表示し、正確な答えを出した
    まだ単に運が良かっただけかもしれないが、第一印象があまりに良かったので引き続きテストするつもりだ。ただし Meta の データ利用ポリシー は非常に攻撃的なので、機密性の高い資料には向いていない。
    有料プランで 学習へのデータ利用除外オプション を提供してくれるといい。無料サービスの代わりにデータで収益化する構造は不安だ

  • このモデルは GPT 5.4 / Gemini 3.1 Pro / Opus 4.6 に近い。コーディングは OpenAI、テキスト推論は Google、Humanity’s Last Exam は Anthropic が先行している。それでも Meta が再び フロンティア研究所 に戻ってきたと見てよさそうだ。
    今は 3.5頭立ての競馬 のような状況で、次のモデルが楽しみだ。競争が増えるのは良いことだ。Grok 4.2 はもう表から外すべきかもしれない

    • Grok Code をしばらくメインで使っていたが、かなり優秀だった。LLM は結局 利用文脈とドメイン によって違う。特に健康関連の質問では他のモデルが回答を避けるので、Grok を使い続けている
    • ただ、今回の Meta のアプローチは 推論力と長期的な問題解決力 が不足しているように見える。Anthropic の Mythos と比べて HLE スコアが低い。それでも全体としては前向きな進展だ
  • 「Personal」とは結局、Meta が 個人データを広告に活用する という意味だ

    • しかもそうしながら、ユーザーの 精神的なエッセンス までモデルに吸収しているように感じる
    • 自分はただの 広告ターゲット なら、まあ広告をいくら送られても構わない
  • 「visual chain of thought」 という表現が興味深い。これはユーザーが 推論過程を視覚的に見られる という意味なのか、それともモデルが 画像ベースで思考する という意味なのか分かりにくい。後者なら本当に革新的だろう

    • ただ、これまで見てきた大半の chain of thought は、見た目だけもっともらしい 見せかけの推論 のように思えた。実際には内部で別のやり方で処理されている
    • 実際、このような視覚的な中間段階はすでに Gemini でも見られる。視覚タスク中に 中間ダイアグラム を生成することもあり、2024年の研究でも turtle diagram のようなアプローチが提案されていた