1 ポイント 投稿者 GN⁺ 14 일 전 | 1件のコメント | WhatsAppで共有
  • I-DLMは、拡散ベース言語モデルがAR(Autoregressive)モデル級の品質並列生成速度を同時に達成した初の事例
  • Introspective Strided Decoding(ISD) により、1回のフォワードパスで新規トークン生成と既存トークン検証を並行して実行
  • I-DLM-8Bは、LLaDA-2.1-mini(16B)と比べて半分のパラメータでAIME-24で+26点LiveCodeBench-v6で+15点向上
  • Gated LoRAを用いてビット単位で損失のない(lossless) 高速化を実装し、SGLangインフラと完全互換
  • 拡散言語モデルが自己整合性学習と並列デコーディング最適化を通じて、実用的な大規模デプロイの可能性を実証

概要

  • I-DLM(Introspective Diffusion Language Model) は、既存の拡散言語モデル(DLM) の並列トークン生成能力を維持しつつ、自己整合性(introspective consistency) の問題を解決してARモデル級の品質を達成したモデル
  • Introspective Strided Decoding(ISD) により、1回のフォワードパスで新しいトークンを生成しながら以前のトークンを検証
  • I-DLM-8Bは、同規模のARモデルと同等の品質を達成した初のDLMであり、LLaDA-2.1-mini(16B) と比べて半分のパラメータでAIME-24で+26点LiveCodeBench-v6で+15点向上
  • 高い同時実行性(C=64)環境で2.9〜4.1倍のスループット(throughput) を達成し、Gated LoRAによりビット単位で損失のない(lossless) 高速化をサポート

Introspective Consistencyの必要性

  • ARモデルは1回のフォワードパスで生成と自己検証を同時に行うが、既存のDLMはノイズ除去(denoising) のみを学習するため自己整合性が不足している
  • 既存DLMの3つのボトルネック要因
    • 低い自己整合性: SDAR 0.699 vs I-DLM 0.984
    • 非効率な計算: TiDAR 約7.8倍オーバーヘッド vs I-DLM 約2.5倍
    • インフラ不一致: SDAR slope=84 vs I-DLM=549

I-DLMの方法論

  • Introspective-Consistency Training

    • 事前学習済みARモデルを因果アテンション(causal attention)logit shift全マスク(all-masked)目的関数によって変換
  • Introspective Strided Decoding(ISD)

    • 1回のフォワードパスでN個のトークン生成以前のトークン検証を並行
    • p/q受理基準(acceptance criterion) を使って生成結果を検証
  • AR-Compatible Serving

    • 厳格な因果アテンション構造によりSGLangインフラへ直接統合可能
    • 別途カスタムインフラを用意せず、ARモデルと同一のサービング環境で動作

性能結果

  • I-DLMは同規模ARモデルと品質が同等な初のDLMであり、15のベンチマーク全体で既存DLMを上回る
  • 主なベンチマーク結果

    • 知識・推論: ARC-C 96.8, MMLU-Pro 79.7, GPQA-D 62.1
    • 数学: AIME-24 83.3, AIME-25 80.0, MATH-500 97.6
    • コード: HumanEval 96.3, MBPP 94.6, LCB-v6 57.1
    • 命令実行: IFEval 84.7
    • I-DLM-32BLLaDA-2.1-flash(100B) より高い性能を記録

スループット(Throughput)

  • バッチサイズ1〜64でLLaDA-2.1-miniおよびSDAR比で2.9〜4.1倍高いスループットを達成
  • メモリバウンド(memory-bound) 環境ではTPF(Token Per Forward) が実際の速度向上を近似
    • I-DLM(N=4, p=0.9): TPF≈2.9, 効率 1.22
    • SDAR(N=4, p=0.5): TPF≈1.1, 効率 0.31
  • 効率が1以上であることは、並列デコーディングがAR比で総計算量を削減することを意味する

Speedup Factor Explorer

  • 受理率 p=0.9, R-ISD LoRAオーバーヘッド α=1.12
  • 速度向上の近似式:

    • メモリバウンド: Speedup ≈ TPF = (2+p+...+pN-2)/(2-pN-1)
    • R-ISD(損失なし): Speedup ≈ TPF/α
    • Gated LoRAはMASK位置でのみ有効化され、AR出力とのビット単位一致を保証

ドキュメントとリソース

  • インストール、学習、推論、サービング、損失なしR-ISD、モデル、ベンチマークの全工程をWebドキュメントで提供
  • Installation

    • GitHubリポジトリをクローン後、install.sh を実行
  • Quick Start

    • SGLangサーバー起動後、REST APIでチャット補完をリクエスト可能
  • Training

    • 全マスクシーケンスとクリーンシーケンスを組み合わせて学習
    • 4.5Bトークン、8×H100 GPU、2 epoch、strideカリキュラム(N=2→3)
  • Inference & ISD

    • MASK位置で新規トークンを提案(q)し、クリーン位置で検証(p)
    • 受理基準 min(1, p(x)/q(x)) によりAR分布を保証
    • stride N=4でTPF=2.96、約3倍の速度向上
  • Serving (SGLang)

    • Paged KVキャッシュ**,** CUDAグラフキャプチャ(+42〜76%), Stationary-batchデコードループ(+11〜21%), Argmax提案(+11〜15%), Paged-onlyアテンションカーネル(+10〜14%)

      • システム全体ではベースライン比で2.1〜2.5倍のスループット向上
  • Lossless R-ISD

    • Gated LoRA(rank=128) をMASK位置にのみ適用
    • 出力はベースARモデルと完全に同一
    • オーバーヘッドは約1.12倍
  • Model Zoo

    • I-DLM-8B: Qwen3-8Bベース、AR品質と同等
    • I-DLM-32B: Qwen3-32Bベース、LLaDA-2.1-flash(100B)を上回る
    • I-DLM-8B-LoRA: Gated LoRA(rank=128)適用
  • Benchmarks

    • 15のベンチマーク(知識、数学、コード、命令実行)で評価
    • 再現用スクリプトを提供

引用情報

  • 論文: Introspective Diffusion Language Models (arXiv:2604.11035, 2026)
  • 研究機関: Together AI, UIUC, Princeton, Stanford, UT Austin
  • 著者: Yifan Yu ほか14名

結論

  • I-DLMは、拡散ベース言語モデルがARモデルの品質と速度を同時に達成した初の事例
  • 自己整合性学習ISDデコーディングにより、並列生成の限界を克服
  • SGLang互換性損失のない高速化高いスループット拡張性によって実用的なデプロイ可能性を実証

1件のコメント

 
GN⁺ 14 일 전
Hacker Newsの意見
  • 私の理解が正しければ、これはかなり驚くべきアプローチだと思う
    Qwen autoregressorを複数の手法で改変してdiffuserのように動作させ、既存のdiffuserよりはるかに優れた性能を示した
    LoRAアダプタを通じてbaseモデルの分布に合わせて出力を整列できるため、同じシードでバイト単位で同一の結果を得ながら、速度はほぼ2倍速くなる
    専門家というより熱心な実験家だが、これは本当に興味深い進展に見える

    • 興奮するだけの価値がある。この論文はAR品質と並列デコーディングの間に橋を架けたと主張している。特に損失のないLoRA補助モードが最も印象的だ
    • baseモデルの出力を直接生成せずに比較できるという点が理解できない。だとすると、その比較にどんな意味があるのか気になる
    • 実際にはこれはdiffusionというより、multi-token predictionspeculative decodingの変形だ
      denoisingの過程はなく、依然としてcausal構造を維持している
      具体的には、複数のMASKトークンを使って一度に複数トークンを予測するよう訓練し、推論時にはそれを並列生成して速度を高める方式だ
      例えば、「what is 2+2」の後ろにMASKを5個付けて、一度に5個の次トークンを予測する
      こうするとmatrix-vectorの代わりにmatrix-matrix演算を行うため、メモリ効率が高くなる
      ただしk(予測トークン数)を増やすほど品質は急激に低下し、論文でもk=8ですでに劣化が見られる
      結局は4-token予測ベースのself-speculative decodingで、既存の限界を完全になくすわけではないが、興味深い訓練方法だ
      関連する説明は以前の投稿にある
  • DFlashDDTreeと比べると、どんな違いがあるのか気になる

  • 去年、一時的にGeminiの応答がdiffusion方式のように徐々に現れるのを見たことがある
    実験中だったのか、単なる視覚効果だったのかは分からないが、興味深い現象だった

  • ここでテキスト生成向けDiffusionを本気で実験している人がいるのか気になる

    • Inception Labsはこの分野をかなり長く研究してきたようだ
      速度は驚異的だが、first token latency出力品質が課題として残っている
      速度と精度がある程度まで上がれば、低コストモデルや非同期作業向けとして十分実用化できそうだ
      また、より長いテキストを一度に拡散させて推論能力を強制的に高める実験も面白そうだ
    • 現在はlocal LLMの領域で、speculative decoding用途として探究中だ
      関連内容はEmergent Mindの記事を参照
    • Mercury 2はレイテンシと価格の面でUX実験に非常に魅力的だ
      以前のGemini Flash Liteよりずっと滑らかに動作し、自動タグ付けやリンク生成のような作業に適している
      ただしHaiku 3.5レベルのツール呼び出し性能はまだ不足している
      入力が十分にあり、出力が短い作業にはdLLMがよく合っており、タブ自動補完のような領域でも可能性がある
    • 私も実験してみたが、一般的なLLMとは異なる直感的アプローチが必要だ。特定の問題には非常によく合う
    • SwiftでWeDLMを実装中だが、まだ性能が足りない
      左から右へ生成するが、スライディングウィンドウ内でのみ拡散が起こる。ウィンドウが16トークン程度なので大きな差はない
  • 専門家レベルではないが、Diffusionなら出力全体を一度に生成すべきなのではないかと思う
    しかしI-LDMモデルは、前のコンテキストを使って次のブロックを生成しているように見える

    • ブロック単位生成は大きな高速化をもたらす
      例えば2トークンずつ生成すれば、ほぼ2倍近い速度向上が得られる
      ブロックサイズが大きくなるほど全体の生成速度は十分に速くなり、全部を一度に生成するのと大差なくなる
      結局重要なのは品質低下をどれだけ抑えられるかで、この論文はその部分をうまく解決したようだ
  • こうしたモデルを使うにはsglangへ移行する必要があるのか、それともvLLMでもすでに対応しているのか気になる

  • 以前からブロックベースのdiffusionアーキテクチャがLLMの未来だと思っていた
    トークン生成速度を動的に調整し、生成中に自己修正が可能な構造――人間の短期記憶のようなシステムになり得る気がする
    数学的原理はよく分からないが、そういう方向に発展してほしい

  • リリースノートを見ると

    2025-04-12: コード公開およびI-DLM-8B、32B、8B-LoRAをリリース
    日付が古いように見えるが、もしかして旧バージョンなのか気になる

    • 単なる年の誤記だ。実際には数日前にHuggingFaceへアップロードされたのを確認した
  • このモデルを今すぐ使えるのか気になる

  • diffusionモデルがブロックを生成し、その結果を内省(introspection)した後に再生成するような反復推論が可能なのか気になる

    • 可能だ。最初の出力を再びモデルに入力し、AR推論モデルのように再評価する形で実装できる