DeepSeek、Text-To-Image生成モデル Janus Pro を公開 [PDF]

(github.com/deepseek-ai)

5 ポイント投稿者 GN⁺ 2025-01-28 | まだコメントはありません。 | WhatsAppで共有

Janus-Pro: 統合マルチモーダル理解および生成モデルの改良版
既存のJanusモデルを発展させたモデルで、次のような改善点を含む
- 最適化された学習戦略
- 拡張された学習データ
- より大規模なモデルへのスケーリング
目的: マルチモーダル理解とテキスト画像生成の性能を向上させ、生成の安定性を強化

主な性能向上

マルチモーダル理解

Janus-Proはマルチモーダル理解ベンチマーク(MMBench)で最高スコア79.2を記録
既存モデル(Janus, TokenFlow, MetaMorph)より優れた性能を達成
視覚エンコーディングを分離し、理解と生成の間の衝突を緩和

テキスト画像生成

GenEvalベンチマークで80%の精度を記録し、DALL-E 3(67%)、SD3-Medium(74%)などを上回る
DPG-Benchで84.19点を記録し、他のすべてのモデルより優れた性能

モデル構造と改善

モデルアーキテクチャ

視覚エンコーディングをマルチモーダル理解用と生成用に分離
高次元の意味的特徴を抽出するSigLIPエンコーダを使用
画像デコーダは画像をIDに変換してLLM入力に接続

最適化された学習戦略

段階的学習: 従来の3段階戦略の非効率性を改善
- ImageNetデータでより長い学習時間を適用(Stage I)
- テキスト画像データのみに学習を集中(Stage II)
データ比率の調整: テキスト画像データの比率を下げ、マルチモーダル理解性能を強化

データとモデルの拡張

データ拡張:
- マルチモーダル理解のために9,000万件のサンプルを追加
- 7,000万件の合成美学データでテキスト画像生成データを強化
モデル拡張:
- 1.5Bから7B規模へ拡張し、学習効率と性能を大幅に改善

実験と評価

性能比較

Janus-Pro-7Bは同規模のモデルと比較して最高性能を示す
- マルチモーダル理解と生成の両方で、TokenFlow-XL(13B)などの大規模モデルを上回る
生成画像の安定性と美的品質の両方が改善

限界点

低解像度(384 × 384)のため、詳細な作業(OCRなど)では制約がある
テキスト画像生成時に細かなディテールが不足

結論

Janus-Proは学習戦略、データ、モデルサイズの面で重要な進展を達成
マルチモーダル理解およびテキスト画像生成の両方で最高性能を達成
今後は解像度の向上によって、より詳細な課題に対応する計画

まだコメントはありません。

まだコメントはありません。