I-DLM - 内省的拡散言語モデル (Introspective Diffusion Language Models)
(introspective-diffusion.github.io)- I-DLMは、拡散ベース言語モデルがAR(Autoregressive)モデル級の品質と並列生成速度を同時に達成した初の事例
- Introspective Strided Decoding(ISD) により、1回のフォワードパスで新規トークン生成と既存トークン検証を並行して実行
- I-DLM-8Bは、LLaDA-2.1-mini(16B)と比べて半分のパラメータでAIME-24で+26点、LiveCodeBench-v6で+15点向上
- Gated LoRAを用いてビット単位で損失のない(lossless) 高速化を実装し、SGLangインフラと完全互換
- 拡散言語モデルが自己整合性学習と並列デコーディング最適化を通じて、実用的な大規模デプロイの可能性を実証
概要
- I-DLM(Introspective Diffusion Language Model) は、既存の拡散言語モデル(DLM) の並列トークン生成能力を維持しつつ、自己整合性(introspective consistency) の問題を解決してARモデル級の品質を達成したモデル
- Introspective Strided Decoding(ISD) により、1回のフォワードパスで新しいトークンを生成しながら以前のトークンを検証
- I-DLM-8Bは、同規模のARモデルと同等の品質を達成した初のDLMであり、LLaDA-2.1-mini(16B) と比べて半分のパラメータでAIME-24で+26点、LiveCodeBench-v6で+15点向上
- 高い同時実行性(C=64)環境で2.9〜4.1倍のスループット(throughput) を達成し、Gated LoRAによりビット単位で損失のない(lossless) 高速化をサポート
Introspective Consistencyの必要性
- ARモデルは1回のフォワードパスで生成と自己検証を同時に行うが、既存のDLMはノイズ除去(denoising) のみを学習するため自己整合性が不足している
- 既存DLMの3つのボトルネック要因
- 低い自己整合性: SDAR 0.699 vs I-DLM 0.984
- 非効率な計算: TiDAR 約7.8倍オーバーヘッド vs I-DLM 約2.5倍
- インフラ不一致: SDAR slope=84 vs I-DLM=549
I-DLMの方法論
-
Introspective-Consistency Training
- 事前学習済みARモデルを因果アテンション(causal attention)、logit shift、全マスク(all-masked)目的関数によって変換
-
Introspective Strided Decoding(ISD)
- 1回のフォワードパスでN個のトークン生成と以前のトークン検証を並行
- p/q受理基準(acceptance criterion) を使って生成結果を検証
-
AR-Compatible Serving
- 厳格な因果アテンション構造によりSGLangインフラへ直接統合可能
- 別途カスタムインフラを用意せず、ARモデルと同一のサービング環境で動作
性能結果
- I-DLMは同規模ARモデルと品質が同等な初のDLMであり、15のベンチマーク全体で既存DLMを上回る
-
主なベンチマーク結果
- 知識・推論: ARC-C 96.8, MMLU-Pro 79.7, GPQA-D 62.1
- 数学: AIME-24 83.3, AIME-25 80.0, MATH-500 97.6
- コード: HumanEval 96.3, MBPP 94.6, LCB-v6 57.1
- 命令実行: IFEval 84.7
- I-DLM-32BはLLaDA-2.1-flash(100B) より高い性能を記録
スループット(Throughput)
- バッチサイズ1〜64でLLaDA-2.1-miniおよびSDAR比で2.9〜4.1倍高いスループットを達成
- メモリバウンド(memory-bound) 環境ではTPF(Token Per Forward) が実際の速度向上を近似
- I-DLM(N=4, p=0.9): TPF≈2.9, 効率 1.22
- SDAR(N=4, p=0.5): TPF≈1.1, 効率 0.31
- 効率が1以上であることは、並列デコーディングがAR比で総計算量を削減することを意味する
Speedup Factor Explorer
- 受理率 p=0.9, R-ISD LoRAオーバーヘッド α=1.12
-
速度向上の近似式:
- メモリバウンド:
Speedup ≈ TPF = (2+p+...+pN-2)/(2-pN-1) - R-ISD(損失なし):
Speedup ≈ TPF/α - Gated LoRAはMASK位置でのみ有効化され、AR出力とのビット単位一致を保証
- メモリバウンド:
ドキュメントとリソース
- インストール、学習、推論、サービング、損失なしR-ISD、モデル、ベンチマークの全工程をWebドキュメントで提供
-
Installation
- GitHubリポジトリをクローン後、
install.shを実行
- GitHubリポジトリをクローン後、
-
Quick Start
- SGLangサーバー起動後、REST APIでチャット補完をリクエスト可能
-
Training
- 全マスクシーケンスとクリーンシーケンスを組み合わせて学習
- 4.5Bトークン、8×H100 GPU、2 epoch、strideカリキュラム(N=2→3)
-
Inference & ISD
- MASK位置で新規トークンを提案(q)し、クリーン位置で検証(p)
- 受理基準
min(1, p(x)/q(x))によりAR分布を保証 - stride N=4でTPF=2.96、約3倍の速度向上
-
Serving (SGLang)
-
Paged KVキャッシュ**,** CUDAグラフキャプチャ(+42〜76%), Stationary-batchデコードループ(+11〜21%), Argmax提案(+11〜15%), Paged-onlyアテンションカーネル(+10〜14%)
- システム全体ではベースライン比で2.1〜2.5倍のスループット向上
-
-
Lossless R-ISD
- Gated LoRA(rank=128) をMASK位置にのみ適用
- 出力はベースARモデルと完全に同一
- オーバーヘッドは約1.12倍
-
Model Zoo
- I-DLM-8B: Qwen3-8Bベース、AR品質と同等
- I-DLM-32B: Qwen3-32Bベース、LLaDA-2.1-flash(100B)を上回る
- I-DLM-8B-LoRA: Gated LoRA(rank=128)適用
-
Benchmarks
- 15のベンチマーク(知識、数学、コード、命令実行)で評価
- 再現用スクリプトを提供
引用情報
- 論文: Introspective Diffusion Language Models (arXiv:2604.11035, 2026)
- 研究機関: Together AI, UIUC, Princeton, Stanford, UT Austin
- 著者: Yifan Yu ほか14名
結論
- I-DLMは、拡散ベース言語モデルがARモデルの品質と速度を同時に達成した初の事例
- 自己整合性学習とISDデコーディングにより、並列生成の限界を克服
- SGLang互換性、損失のない高速化、高いスループット拡張性によって実用的なデプロイ可能性を実証
1件のコメント
Hacker Newsの意見
私の理解が正しければ、これはかなり驚くべきアプローチだと思う
Qwen autoregressorを複数の手法で改変してdiffuserのように動作させ、既存のdiffuserよりはるかに優れた性能を示した
LoRAアダプタを通じてbaseモデルの分布に合わせて出力を整列できるため、同じシードでバイト単位で同一の結果を得ながら、速度はほぼ2倍速くなる
専門家というより熱心な実験家だが、これは本当に興味深い進展に見える
denoisingの過程はなく、依然としてcausal構造を維持している
具体的には、複数のMASKトークンを使って一度に複数トークンを予測するよう訓練し、推論時にはそれを並列生成して速度を高める方式だ
例えば、「what is 2+2」の後ろにMASKを5個付けて、一度に5個の次トークンを予測する
こうするとmatrix-vectorの代わりにmatrix-matrix演算を行うため、メモリ効率が高くなる
ただしk(予測トークン数)を増やすほど品質は急激に低下し、論文でもk=8ですでに劣化が見られる
結局は4-token予測ベースのself-speculative decodingで、既存の限界を完全になくすわけではないが、興味深い訓練方法だ
関連する説明は以前の投稿にある
DFlashやDDTreeと比べると、どんな違いがあるのか気になる
去年、一時的にGeminiの応答がdiffusion方式のように徐々に現れるのを見たことがある
実験中だったのか、単なる視覚効果だったのかは分からないが、興味深い現象だった
ここでテキスト生成向けDiffusionを本気で実験している人がいるのか気になる
速度は驚異的だが、first token latencyと出力品質が課題として残っている
速度と精度がある程度まで上がれば、低コストモデルや非同期作業向けとして十分実用化できそうだ
また、より長いテキストを一度に拡散させて推論能力を強制的に高める実験も面白そうだ
関連内容はEmergent Mindの記事を参照
以前のGemini Flash Liteよりずっと滑らかに動作し、自動タグ付けやリンク生成のような作業に適している
ただしHaiku 3.5レベルのツール呼び出し性能はまだ不足している
入力が十分にあり、出力が短い作業にはdLLMがよく合っており、タブ自動補完のような領域でも可能性がある
左から右へ生成するが、スライディングウィンドウ内でのみ拡散が起こる。ウィンドウが16トークン程度なので大きな差はない
専門家レベルではないが、Diffusionなら出力全体を一度に生成すべきなのではないかと思う
しかしI-LDMモデルは、前のコンテキストを使って次のブロックを生成しているように見える
例えば2トークンずつ生成すれば、ほぼ2倍近い速度向上が得られる
ブロックサイズが大きくなるほど全体の生成速度は十分に速くなり、全部を一度に生成するのと大差なくなる
結局重要なのは品質低下をどれだけ抑えられるかで、この論文はその部分をうまく解決したようだ
こうしたモデルを使うにはsglangへ移行する必要があるのか、それともvLLMでもすでに対応しているのか気になる
以前からブロックベースのdiffusionアーキテクチャがLLMの未来だと思っていた
トークン生成速度を動的に調整し、生成中に自己修正が可能な構造――人間の短期記憶のようなシステムになり得る気がする
数学的原理はよく分からないが、そういう方向に発展してほしい
リリースノートを見ると
このモデルを今すぐ使えるのか気になる
diffusionモデルがブロックを生成し、その結果を内省(introspection)した後に再生成するような反復推論が可能なのか気になる