こんにちは、ソウル大学AIDAS研究室(https://aidas.snu.ac.kr/)が公開したオムニモーダル基盤モデルDynin-Omni(https://dynin.ai/omni/)をご紹介します。テキスト、画像、音声、動画を単一のモデルで理解し、生成まで行う統合構造です。
最近のマルチモーダル統合モデルを見ると、LLMに画像生成器やTTSモデルを接続した構成が多いですが、実際に使ってみるとパイプラインが複雑で遅く、時にはオーケストレーションが噛み合わないこともあります。
また、モデルが外部生成器なしでネイティブに理解と生成をサポートするとしても、その多くはAutoregressive(AR)ベースのため、トークンを順番に生成する必要があります。しかし画像や動画は本来逐次的なデータではないため、この方式にはやや不自然さを感じていました。
そこで、アプローチそのものを変えてみました。
トークンを1つずつ生成する代わりに、マスクしておいて一度に復元するmasked diffusion方式を採用しました。これにより、作業自体がすべて「どのトークンを隠して復元するか」に統一されます。
例えば:
- 画像を見て説明 → テキストだけを埋める
- テキストから画像生成 → 画像トークンを埋める
- 音声生成 → 音声トークンを埋める
このような形です。
そのため、別途画像生成モデルやTTSモデルを接続することなく、単一のモデルで理解と生成を同時に処理できるようになりました。性能も、単一モデルとしてはかなり良好です。
テキスト推論は最近のLLMと比べても遜色ない水準で、画像および動画理解はInternVLやQwen2.5-VLのようなビジョンモデルと競争可能なレベルです。画像生成はFLUXのような専用モデル、音声はQwen-TTS系のような専用モデルに近いレベルまで達しています。
速度面でも効率性を確保しています。テキスト生成速度はQwen2.5-OmniおよびMiniCPM-o4.5と比べて約4〜5倍速く、vLLMで最適化された言語モデルであるQwen3-8Bと比べても約2.5倍高速です。画像生成についても、既存の専用生成モデルと比べて約2倍少ないステップで同等の品質を達成しています。
最近登場したQwen3.5-OmniのようなARベースの認知中心オムニモーダルモデルは主に理解に焦点を当てていますが、Dynin-Omniは理解と生成を一つの構造に統合します。トークンを逐次生成する代わりに全体を一度に復元する方式であるため、画像や動画のような非逐次的データに対して、より高速かつ自然に対応できます。
このような構造は、エージェントやロボティクスのように多様な入力を同時に理解し、実際の行動や結果を生成しなければならないドメインで、さらに重要になります。複数のモデルを組み合わせる方式と異なり、単一のモデルが直接処理することで、システムの複雑さを減らし、コストと速度の面で利点を提供します。
また、理解と生成を一つのフレームワークに統合した構造であるため、新しいモダリティやタスクが追加されても、別個のモデルを結合することなく、同じ構造の中でさまざまなドメインへ自然に拡張できます。
この構造を実際のサービス環境でも活用できるように、vLLMおよびdInfer、SGLangベースのサービングインフラへの統合を進めています。マルチモーダル入力と生成を単一のモデルで処理するだけに、効率的な推論インフラも重要な要素だと考えています。
さらに、本モデルをベースとして、ロボティクスおよびエージェント環境を含むphysical AIモデルへ拡張するDynin-Roboticsもあわせて研究中です。多様なセンサー入力を統合的に理解し、実際の行動へつながるend-to-end構造を目指しています。
今後は中国・清華大学のGLMシリーズ、上海AI実験室のInternLMのように、継続的な研究と開発を通じて発展させていく計画です。ご覧になって改善アイデアがあれば、ぜひ気軽にお知らせください 👍
4件のコメント
ありがとうございます。もちろん日本語はよく対応しているでしょうね?
huggingface.coの問題なのか、エラーが発生しますね。ローカルで実行してみようと思います。韓国語機能は現在のバージョンではサポートしていません。近日中に、韓国語を含めて学習したバージョンをreleaseする予定です。ありがとうございます!
どの程度までスケールアップする計画がありますか?
具体的なスケールアップ計画は現在チーム内で構想中です。継続的にモデルを発展させていく予定です。ありがとうございます。