- Janus-Pro: 統合マルチモーダル理解および生成モデルの改良版
- 既存のJanusモデルを発展させたモデルで、次のような改善点を含む
- 最適化された学習戦略
- 拡張された学習データ
- より大規模なモデルへのスケーリング
- 目的: マルチモーダル理解とテキスト画像生成の性能を向上させ、生成の安定性を強化
主な性能向上
マルチモーダル理解
- Janus-Proはマルチモーダル理解ベンチマーク(MMBench)で最高スコア79.2を記録
- 既存モデル(Janus, TokenFlow, MetaMorph)より優れた性能を達成
- 視覚エンコーディングを分離し、理解と生成の間の衝突を緩和
テキスト画像生成
- GenEvalベンチマークで80%の精度を記録し、DALL-E 3(67%)、SD3-Medium(74%)などを上回る
- DPG-Benchで84.19点を記録し、他のすべてのモデルより優れた性能
モデル構造と改善
モデルアーキテクチャ
- 視覚エンコーディングをマルチモーダル理解用と生成用に分離
- 高次元の意味的特徴を抽出するSigLIPエンコーダを使用
- 画像デコーダは画像をIDに変換してLLM入力に接続
最適化された学習戦略
- 段階的学習: 従来の3段階戦略の非効率性を改善
- ImageNetデータでより長い学習時間を適用(Stage I)
- テキスト画像データのみに学習を集中(Stage II)
- データ比率の調整: テキスト画像データの比率を下げ、マルチモーダル理解性能を強化
データとモデルの拡張
- データ拡張:
- マルチモーダル理解のために9,000万件のサンプルを追加
- 7,000万件の合成美学データでテキスト画像生成データを強化
- モデル拡張:
- 1.5Bから7B規模へ拡張し、学習効率と性能を大幅に改善
実験と評価
性能比較
- Janus-Pro-7Bは同規模のモデルと比較して最高性能を示す
- マルチモーダル理解と生成の両方で、TokenFlow-XL(13B)などの大規模モデルを上回る
- 生成画像の安定性と美的品質の両方が改善
限界点
- 低解像度(384 × 384)のため、詳細な作業(OCRなど)では制約がある
- テキスト画像生成時に細かなディテールが不足
結論
- Janus-Proは学習戦略、データ、モデルサイズの面で重要な進展を達成
- マルチモーダル理解およびテキスト画像生成の両方で最高性能を達成
- 今後は解像度の向上によって、より詳細な課題に対応する計画
まだコメントはありません。