- Meta Fundamental AI Research(FAIR)が新たな研究成果を公開
- イノベーション、創造性、効率性、責任という中核テーマに焦点を当てた6つの研究成果を含む
Meta Chameleon
- テキストと画像を入力として受け取り、テキストと画像の組み合わせを出力できる統合アーキテクチャモデル
- Diffusionベースの学習ではなくTokenizationを用いてテキストと画像を処理するため、統合的なアプローチが可能で、設計・保守・拡張が容易
- Chameleon 7Bと34Bモデルの主要コンポーネントを研究専用ライセンスで公開
- 画像生成モデルはまだ公開していない
Multi-Token Prediction
- 単語を一度に1つずつ予測する従来方式の代わりに、複数の単語をまとめて予測する新しいアプローチを提案
- モデル性能と学習効率が向上し、速度も高速化
- コード補完のために事前学習されたモデルを非商用/研究専用ライセンスで公開
JASCO (Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation)
- テキストプロンプトを音楽クリップに変換するテキストから音楽への生成モデル
- 特定のコードやビートなど多様な入力を受け取り、生成される音楽出力をより適切に制御できる
- Information bottleneck layerとtemporal blurringを適用し、特定の制御に関連する情報を抽出
- 評価結果では生成品質は基準モデルとほぼ同等だが、はるかに多様な制御が可能
- 研究論文とサンプルページを公開、今後は推論コードと事前学習モデルも公開予定
AudioSeal
- AI生成音声を検出するためのオーディオ・ウォーターマーキング技術
- より長いオーディオクリップの中からAI生成部分を正確に特定できる
- 従来の複雑なデコーディングアルゴリズムの代わりに局所的な検出方式を用い、速度と効率を向上
- 商用ライセンスで公開され、さまざまな生成AIツールの悪用防止に向けた研究の一環
PRISMデータセット公開支援
- LLMの改善には、多様な人々からフィードバックを得ることが重要
- フィードバック過程の方法、ドメイン、目標について研究コミュニティから疑問が提起されている
- Metaは、75か国・1,500人の多様な参加者の社会人口統計属性と選好をマッピングしたPRISMデータセットの公開を支援
- データセットは、21のLLMとの8,011件のリアルタイム対話に対する各参加者の選好と詳細なフィードバックをマッピング
- AI開発へのより広い参加と、包摂的な技術設計アプローチの促進を目指す
テキストから画像を生成するシステムの地理的ギャップの測定と改善
- テキストから画像を生成するモデルがすべての人に適切に機能し、世界の地理的・文化的多様性を反映することが重要
- 「DIG In」という自動指標を開発し、潜在的な地理的ギャップを評価
- 65,000件を超える注釈と20件を超える調査回答を収集し、人々が地理的表現をどのように認識するかを研究
- 人々は画像全体よりも、画像内の特定の構成要素を手がかりに地理的表現を認識することを発見
- これを基に、テキストから画像を生成するモデルの出力多様性を改善する方法を探究
- Contextualized Vendi Score guidanceを導入し、画像品質とプロンプト生成の一貫性を維持しながら、生成サンプルの表現多様性を向上
まだコメントはありません。