Meta FAIR、9件の新たな研究・モデル・データセットを公開

(ai.meta.com)

1 ポイント投稿者 GN⁺ 2024-12-14 | 1件のコメント | WhatsAppで共有

Meta FAIRは、高度な機械知能研究のために、エージェント、堅牢性・安全性、モデルアーキテクチャを扱う9件の成果物を、コード・モデル・データセット・デモの形で公開した
主な公開項目は、仮想ヒューマノイド制御向けのMeta Motivo、動画ウォーターマーキング向けのMeta Video Seal、Flow Matchingコードベース、Explore Theory-of-Mind、Large Concept Modelなど
Meta Motivoは、ラベルなしのモーションデータと新しいアルゴリズムにより、状態・モーション・報酬を同じ潜在空間に配置し、追加学習やプランニングなしで全身制御タスクを実行する
Meta Video Sealは、見えないウォーターマークと選択的な隠しメッセージを動画に埋め込み、ブラー・クロップ・オンライン共有時の圧縮といった一般的な編集にも耐えられるよう設計されている
研究者は公開された成果物をダウンロードして実験・統合・拡張でき、Metaは再現可能なオープンサイエンスとオープンなエコシステムを重視している

Meta FAIRの公開範囲

Meta FAIRは最新の研究、コード、モデル、データセットを研究コミュニティに公開した
今回の公開は3つの軸に集中している
- より有能なエージェントの構築
- 堅牢性と安全性
- モデルが新しい情報をより効果的に学習し、現在の限界を超えて拡張できるようにするアーキテクチャ革新
合計9件のプロジェクトと成果物をすぐにダウンロードして利用できる
初期段階の研究公開を通じて反復的な研究を促進し、AIの発展を責任ある形で前進させる方針

Meta Motivo: 仮想ヒューマノイド行動制御の基盤モデル

Meta Motivoは、仮想の身体性を持つヒューマノイドエージェントの動きを制御し、複雑なタスクを実行する行動ベースのモデル
従来の自己教師あり強化学習では、精選された相互作用データセットが必要だったり、目標タスクとうまく整合しないポリシーを生む自己教師あり損失に依存することが多い
Meta Motivoは、ラベルなしモーションデータセットを活用する新しいアルゴリズムで学習される
- 状態、モーション、報酬を同じ潜在空間に埋め込む表現を学習する
- 追加学習やプランニングなしで、モーショントラッキング、目標姿勢到達、報酬最適化といった全身制御タスクを解く
性能はタスク別手法と競合可能で、最新の自己教師あり強化学習およびモデルベースのベースラインを上回る
学習していない重力、風、直接的な外乱といった環境変化に対しても高い堅牢性を示す
この研究は、Metaverseにおける完全な身体性を持つエージェント、より生き生きしたNPC、キャラクターアニメーションの民主化、新しい没入型体験へとつながる可能性がある
論文を読む
デモを試す
コードとモデルをダウンロード

Meta Video Seal: オープンソースの動画ウォーターマーキング

Meta Video Sealは、ニューラルネットワークベースの動画ウォーターマーキングのための最新フレームワーク
動画に目に見えないウォーターマークを埋め込み、必要に応じて隠しメッセージも含められる
埋め込まれたウォーターマークは後で抽出でき、動画の出所確認に活用される
一般的な動画編集や共有の過程に対する耐性を持つよう設計されている
- ブラー
- クロップ
- オンラインコンテンツ共有で一般的に使われる圧縮アルゴリズム
Video Sealモデルは寛容なライセンスで公開され、論文・学習コード・推論コード・デモもあわせて提供される
関連するウォーターマーキング成果物も同時に公開されている
- Meta Omni Seal Bench: 複数モダリティのニューラルウォーターマーキングを扱うリーダーボード
- Meta Watermark Anything: 寛容なライセンスで再公開
- 2025年ICLRウォーターマーキングワークショップ
Watermark Anything、Video Seal、Audio Sealはダウンロードと統合が可能な状態で提供される
論文を読む
デモを試す
Video Sealのコードとモデルをダウンロード
Watermark Anythingのコードとモデルをダウンロード
Omni Seal Benchのリーダーボードを見る

Flow Matchingガイドとコードベース

Flow Matchingは、画像、動画、音声、音楽、タンパク質のような3D構造など、複数のモダリティで使われる生成パラダイム
Meta社内では既存の拡散方式を複数の生成アプリケーションで置き換えている
- Meta Movie Gen
- Meta Audiobox
- Meta Melody Flow
業界ではStable-Diffusion-3、Flux、Fold-Flow、Physical Intelligence Pi_0といった事例がある
Flow Matchingはシンプルだが柔軟な生成AIフレームワークで、性能と効率を改善し、複雑なデータへの汎化を容易にする
公開項目には論文、連続および離散Flow Matchingの中核実装、最新の学習スクリプトが含まれる
論文を読む
コードをダウンロード

Explore Theory-of-Mind: 心の理論推論データ生成

Meta Explore Theory-of-Mindは、心の理論推論のためのプログラムガイド付き敵対的データ生成フレームワーク
従来のTheory-of-Mindデータセットは評価にのみ焦点を当て、狭い範囲の相互作用しか扱わないという限界がある
このフレームワークは、学習と評価の両方に使える、多様で難度が高く拡張可能なToM推論データを生成する
大規模言語モデルの限界を試す、堅牢で信頼できるストーリーを作成できる
Llama-3.1 7Bをファインチューニングした際、広く使われるToMiベンチマークで正確度が27ポイント向上した
活用範囲には、LLM改善用データセット生成、目標指向シナリオ強化、相互作用データセット収集、LLM性能評価ベンチマークが含まれる
論文を読む
コードをダウンロード
データセットをダウンロード

Large Concept Model: トークンの代わりに概念を予測

Large Concept Model(LCM) は、言語モデリングのための別の学習パラダイム
現在主流の言語モデルは通常トークンレベルで動作し、階層的な形で明示的に推論しない
LCMの核心は、推論と言語表現を分離することにある
- 人が発表するとき、同じアイデアの順序を保ちながらも毎回語の選び方は変わりうるという考え方に着想を得ている
LCMは次のトークンではなく、次の概念または高水準のアイデアを予測するよう学習される
概念はマルチモーダル・多言語埋め込み空間の文全体として表現される
要約のような純粋生成タスクで最近のLLMより優れるか同等の性能を示し、見たことのない言語に対しても強いゼロショット汎化を提供する
入力コンテキストが長くなるほど計算効率も高くなる
論文を読む
コードをダウンロード

Dynamic Byte Latent Transformer: トークナイザー不要のバイトレベルモデル

Dynamic Byte Latent Transformerは、動的パッチング方式を用いる階層的バイトレベルモデル
従来の言語モデルはヒューリスティックな前処理段階でテキストをトークン化するが、これはエンドツーエンド学習を制限し、実運用での最適化を難しくし、稀なテキストシーケンスの性能を損なう可能性がある
このモデルはトークン化ヒューリスティクスなしでバイト上で動作する
学習と推論における長いシーケンス処理効率も改善する
トークナイザーベースのモデルより堅牢性で平均7ポイント優位を示す
未知の記号のロングテールや稀なシーケンス処理に強みがある
このアプローチは、低リソース言語、コーディング、事実性といった領域の推論向上に役立つ可能性がある
論文を読む
コードをダウンロード

Meta Memory Layers: 事実情報のための疎メモリ拡張

Meta Memory Layers at Scaleは、メモリレイヤーの拡張によって一般的な事実性ベンチマークで事実性を高める方法
パラメトリックメモリは、事前学習中にニューラルネットワークの重みに保存される事実情報の格納庫であり、LLMが複雑な概念や言語的ニュアンスを理解するのに寄与する
既存のスケーリング方式が効率的拡張の限界に近づく中、情報をより効果的に学習する新たなアーキテクチャが必要になっている
Memory Layersは、学習可能なキー・バリュー検索メカニズムにより、FLOPsの増加なしで追加パラメータをモデルに加える
疎活性化メモリレイヤーは、計算コストの高い高密度フィードフォワードレイヤーを補完し、情報を低コストで保存・検索する専用容量を提供する
改良されたメモリレイヤーを追加した言語モデルは、下流タスクで次のモデルを上回る
- 計算予算が2倍超の高密度モデル
- 計算量とパラメータを揃えたMoEモデル
疎メモリアーキテクチャは競争力を保って拡張するのが難しいという通念に反し、128Bパラメータおよび8Bベースモデルまで効率的に拡張し、一般的な事実性ベンチマークで同程度の計算量に対して改善を示した
論文を読む
コードをダウンロード

Image Diversity ModelingとEvalGIM

FAIRは、画像生成モデルの安全な開発を理解し、新しい手法を作るための研究を進めている
研究過程で開発された画像生成モデルは、生成モデルのアーキテクチャと損失関数に関する先行研究に基づいている
このモデルは、最先端モデルと競合可能な画像品質を維持しつつ、物理世界を代表する画像生成を優先する
外部の専門家は、画像多様性モデリング全般の安全性と責任ある運用を改善できる領域を研究するためにこのモデルを利用できる
テキスト・画像生成モデル向けの総合評価ツールボックスもオープンソースとして公開予定
- 画像生成ベンチマークの容易さと再現性を高める
- 責任あるテキスト・画像研究に役立つ解釈可能な結果を促進する
論文を読む
コードをダウンロード

Meta CLIP 1.2: ビジョン・言語エンコーダーとデータキュレーション

Meta CLIP 1.2は、高性能なビジョン・言語エンコーダー開発のためのリリース
Metaは、大規模な画像・テキストデータを効果的にキュレーションし整列させるアルゴリズムを開発し、モデルが世界に関する人間の知識を学習できるようにしている
大規模で高品質かつ多様なデータセットは、世界について学習する基盤モデルの構築に不可欠
Meta CLIPは、そのようなデータセットと基盤モデルを構築するためのMetaの取り組み
高品質で安全なビジョン・言語エンコーダーベースモデルのために、データキュレーションと整列アルゴリズムを開発し、完全性およびプライバシー保護措置を適用している
公開項目は、研究者と開発者がビジョン・言語理解を前進させるために利用できる
- データアルゴリズム
- 学習レシピ
- キュレーション済みデータセットで学習した基盤モデル
活用例として、MLLM向けのビジョンエンコーディング、検索向けマルチモーダル埋め込み、ゼロショット分類、データ品質研究の出発点が挙げられる
アルゴリズムと学習方法は、高品質な大規模CLIP類似データセットをゼロから作るためにも利用できる
論文を読む
データセットをダウンロード
コードをダウンロード
モデルをダウンロード

1件のコメント

GN⁺ 2024-12-14

Hacker News の意見

ここには本当に興味深い内容が多く、とくに LLM 関連のアイデアが目を引く
トークンではなく概念を扱い予測する大規模概念モデル、標準的なトークン化に対するバイト単位の代替となる動的バイト潜在 Transformer、計算要求を増やさずにキー・バリューのメモリ階層を拡張したスパースメモリ階層などが、それぞれ品質や効率を改善する別々の方法として紹介されている
これらの方法をすべて組み合わせると品質と効率がどれくらい向上するのか気になるし、もしかするとそれが Llama 4 なのかもしれないとも思う
- Llama 4 や 5 は別の構造だといい
  これまで公開された Llama は、推論構造はほとんど似ていて、学習パイプラインだけがより良くなった形だった
  欠点は、llamacpp が新しいモデルを動かせない可能性があり、大きな書き直しまで必要になって、新しい C、C++、Go、Rust のプログラムが必要になるかもしれない点
- こうしたコンテンツをもっと上手く見せる方法があるのか気になる
  似たようなドキュメントやデモを作っているが、ドキュメントページなら各セクションをタイトル、本文、コードリンク、論文リンクで均一に構成できる
  ただ、このページ自体はブログ記事なので、来年また探すのは難しそう
  企業が技術概要をきちんと整理しておき、ホームページからも継続的に見つけられるようにしている別の例はあるだろうか？
- Meta が結局、最大の オープンな AI 組織になったのは少し皮肉
  もちろん「オープンソース」ではないが、使えるように公開していて、研究も公に発表している
本当に素晴らしい
最初のデモを触ってみるのがとても楽しく、モデルに ムーンウォークさせた人が勝ちというゲームのよう
私の最高の試行はたぶん (body_speed_forward < -0.3) * (head_height > 1.0) * (stay_still > 0.2) * (body_speed_vertical < 0.1) * (stay_upright > 0.9) くらいだった
https://i.imgur.com/O5hGMo5.gif
それに「Meta Explore Theory of Mind」はさらに興味深い
1か月ほど前にも、「信念」のような概念と、それに合わせて世界モデルを更新する話をしていたスレッドがあった
https://news.ycombinator.com/item?id=42035985
動的バイト潜在 Transformer がうまくいってほしい
トークナイザーはもうなくなってほしい
階層構造なのに階層が2段階だけという点も興味深く、さらに多くの階層を積むのは後続研究として自然な方向に見える
- 著者です :)
  良い研究方向だと思う
  ただ、一度にやるには少し多すぎるし、階層全体に FLOP 予算をどう配分するかも慎重に考える必要がある
  2段階なら、片方をバイト/ローカルエンコーダとして FLOP 効率よく作り、もう片方をパッチ/グローバルエンコーダとして FLOP を多く使うようにできる
  パッチをさらに大きな単位にまとめる方法も探す必要があるが、ここから続く方向性はたくさんある
Meta がこれをやっている事業上の背景を考えると、現金が 700億ドルもあるので、AI 専門家に数億ドルを払うのははした金のように見える
- AI 研究の世界で根本的な変化が起きると想像してみればいい
  AI が突然プログラマーの生産性を大きく高めたり、脆弱性検出が非常に得意になったり、AI チャットが新しい大型エンターテインメントになったり、AI 画像が Instagram で広く共有されるコンテンツになったりするかもしれない
  こうしたことのどれか一つでも起きたとき、Facebook は社内開発者やツール、アプリ内埋め込みのために 最先端モデルへアクセスし、カスタマイズしたくなる可能性がある
  ところがそのアクセス方法が、OpenAI のようなモデル販売会社と7〜9桁規模の契約を結ぶことだけだとしたら最悪だ
  さらに悪いことに、広告分野の主要な競合が、広告主がさまざまな形式に合わせてクリエイティブを調整できる強力な AI ツールを提供し始める可能性もある
  そうなると Facebook は大きく後れを取り、OpenAI のような会社に数百万ドルを払いながら、四半期ごとに数十億ドル規模の広告シェアを失うかもしれない
  この最悪のシナリオが来れば Facebook は愚かに見えるだろうし、このうち一つでも可能性があるなら投資は理にかなっている
  オープンソースや、Meta を働くのに魅力的な場所にする効果は、追加の戦略的ボーナス
- 「補完財をコモディティ化せよ」という見方をするとよさそう
  OpenAI が大成功して唯一の選択肢になれば、そのサービスを使うすべての人に莫大な 独占レントを要求できる
  だから他の企業や AI を使いたい誰にとっても、AI エコシステムに競合が多くなり、価格が低く保たれるほうが利益になる
- 最高の研究者を十分に確保するには、論文公開を認めるしかない
- その AI 専門家たちこそ、そもそも Meta が700億ドルを稼ぐうえで中核的な役割を果たしていた
- ここまで答えた人たちは皆、無邪気に間違っていると思う
  Facebook は複数のアプリで広告枠を売っており、その広告枠に価値があるためには人々がアプリにいなければならない
  人々がアプリにいるためには、引きつけるコンテンツが必要
  だから単純な話だ。個人でも企業でも誰でも 低コストで大量のコンテンツを作り、それをアプリで共有するようにすればいい
最近の AI Engineer London ミートアップで、元 Meta の Ross Taylor の発表を聞く機会があった
発表全体の動画も公開されている
https://www.youtube.com/watch?v=S5l5OvJ01ws
Meta が 推論と心の理論の方面でどれほど多くのことをしてきたのか見落としていた
- 良い動画
  o1 を文脈の中で捉えられるようにしてくれる
  OpenAI、Google、Meta の公開ペースがこれほど速いなら、次は Anthropic の番のようだ
テキストを整える必要があるたびに、なぜ単に バイト単位のノイズ除去オートエンコーダを学習させて代わりに処理させなかったのかと考えてしまう
- 面白いアイデア
  ビジョンではグローバルとローカルの文脈を効率よく捉えられるので、テキストデータにも U-Net や hourglass net を試してみたらどうかとずっと気になっていたが、自分では試していない
AI動画に自発的にウォーターマークを入れることが、AIをより安全にするのにどう役立つのか、誰か説明してくれないだろうか？
- AI動画生成サービスを提供する側が、自分たちの作ったすべての動画にウォーターマークを入れられるようにする、ということ
  だから意図としては自発的ではなく、サービス側で適用するもの
  結局、現在のBig Techのルールに従わないサービスだけが残る可能性がある
  たとえばGrok/X.aiは品質は落ちたが、Trump支持画像を作ろうとして人々がGrok/X.aiを使ったのと同じようなことになる
  https://arstechnica.com/information-technology/2024/08/musks...
- 現時点でモデルの学習コストはどれくらいなのだろう？
  今後数年以内に主要国や大半のオリガルヒが負担できる水準になりそうだし、すでにそうかもしれない
  だから、誰もがウォーターマーキングを自発的なものとして理解するのが最も現実的に思える
  今では画像や動画は、特定の事実の証拠としては、そのビット列ほどの価値もないと思う
とんでもなく興味深い内容ばかり
みんなこれらがどれほど刺激的か、特にLCMとトークン化しないトークナイザーについて話しているが、見ていた人がいるなら聞きたい
なぜ「advanced machine intelligence」という用語を使うのだろう？
最初に思ったのは、終末論者をなだめるか注意をそらすためなのかということだったが、単に自意識過剰なのかもしれない
- この用語はYann LeCunの2022年の論文に由来する
  AMIはAGIと区別される用語だった
  ただ、この数年でAは文脈に応じてautonomous、advanced、augmentedへと変わってきた
  [1] https://openreview.net/pdf?id=BZ5a1r-kVsf
- LeCunはAGIという用語が好きではないようだ
- いつかこれらがMindsと呼ばれるようになる時を待っている :)
- 最近の市場調査で、一般の人々は「AI」と付いたものをおおむね詐欺っぽく、信頼しにくいと見ているという結果が出ており、それへの対応のように思える
Metaは確実にイメージが良くなっており、AIが堀のない技術になるのを助けている
- MetaはIaaSやPaaSを売っているわけではないが、AIがGoogleとOpenAIだけでなく、より多くのプレイヤーの手に渡れば、Metaとの相性は高まる
  AIを汎用化すればさまざまな事業が生まれ、それらの事業はMetaのプラットフォームを通じて顧客に到達することになる
- LLMでどれほど良いことをしても、依然としてFacebookで社会を壊している
- 原罪を犯し続けているなら、それは救いではない
新しいアーキテクチャを10個くらい一気に学んでいる感じ

Meta FAIR、9件の新たな研究・モデル・データセットを公開

Meta FAIRの公開範囲

Meta Motivo: 仮想ヒューマノイド行動制御の基盤モデル

Meta Video Seal: オープンソースの動画ウォーターマーキング

Flow Matchingガイドとコードベース

Explore Theory-of-Mind: 心の理論推論データ生成

Large Concept Model: トークンの代わりに概念を予測

Dynamic Byte Latent Transformer: トークナイザー不要のバイトレベルモデル

Meta Memory Layers: 事実情報のための疎メモリ拡張

Image Diversity ModelingとEvalGIM

Meta CLIP 1.2: ビジョン・言語エンコーダーとデータキュレーション

関連記事

1件のコメント

Hacker News の意見