BERTは単なる単一テキスト拡散ステップにすぎない

(nathan.rs)

3 ポイント投稿者 GN⁺ 2025-10-21 | まだコメントはありません。 | WhatsAppで共有

BERT と RoBERTa のようなマスク付き言語モデルも テキスト拡散モデル の概念として解釈できる
従来の Auto-regressive（例: GPT）とは異なり、ブロック単位の生成と段階的復元方式の適用可能性が実証されている
マスキング率をステップごとに調整して訓練すると、RoBERTa でも自然なテキスト生成が可能であることが実験で確認された
既存の構造を変えないで訓練目標のみを調整するだけでも、生成能力を確保できる
GPT-2 と比較すると、RoBERTa ベースの拡散モデルでも一定レベルの一貫したテキスト生成結果を導出する

概要

Google DeepMind が公開した Gemini Diffusion は、従来の GPT 系列とは異なり、テキストを一度にブロック単位で生成する 拡散ベース言語モデル である。この方式は、ランダムノイズを段階的に洗練してテキストを作るアプローチだ。関連論文（Large Language Diffusion Models）を調べた結果、離散型言語拡散は マスク付き言語モデリング（MLM） の一般化という事実を確認した。つまり、このアイデアを使って BERT 系モデルでもテキスト生成が可能かを実験的に検討した。

注: 後続の DiffusionBERT 論文は、同様のアイデアをより厳密に検証している。

Transformer の簡単な歴史

2017年に最初に提案された Transformer は、エンコーダー-デコーダー構造だった。2018年には、エンコーダー（BERT: 双方向、マスクド復元中心）とデコーダー（GPT: 自己回帰、逐次予測中心）が分離され、それぞれに特化したモデル群が登場した。

エンコーダー専用（BERT 系）
- 文全体の文脈を入力し、特定の部分を <MASK> で隠して残りから復元
- 文表現、分類などで性能上の強み
デコーダー専用（GPT 系）
- 与えられた順序で次のトークンを予測
- 生成、要約、翻訳などで頭角を現す

BERT は分類などにすぐ活用されたが、その後 GPT 系列は生成能力が向上し、さらに多様な用途を確保した。

離散的言語拡散モデル

拡散モデルは元々画像生成で普及した。画像の場合:

順方向プロセス: きれいな画像に徐々にガウシアンノイズを追加して、純粋なノイズ状態に到達
逆方向プロセス: 深層学習モデルで段階的にデノイズを繰り返し、元データを復元

テキストへの適用では、最もシンプルな方法は マスキングベースのノイズ過程 である。

順方向（マスキング）
- t=0 で元のテキスト、ステップが進むほど一部のトークンを <MASK> にランダム置換
- 最終ステップでは全体が <MASK> で埋め尽くされる
逆方向（デノイズ）
- Transformer エンコーダーが、与えられたマスキング設定で元トークンの復元を学習
- 低いマスキング率なら復元しやすく、比率が高まるほど復元が難しくなる
- 高いマスキング率から低い比率の順に繰り返して、全シーケンスを生成可能

このような拡散フレームワークでは、モデルは様々なマスキング率のステップごとにデノイズ損失を合算して学習する。BERT のマスキング復元目標は事実上テキスト拡散の一部である。マスキング率のスケジュールと反復デノイズを組み合わせれば、BERT の目標を自然言語生成手順へ拡張できる。

RoBERTa Diffusion 実験

RoBERTa は 2019 年に発表された BERT のハイパーパラメータとデータ拡張、より単純な学習目的（MLM Only）が特徴的なモデルである。実験では HuggingFace transformers、datasets ライブラリを使って RoBERTa のデフォルト重み、トークナイザー、Trainer を利用した。 WikiText データセットをベースに、以下のプロセスでファインチューニングを実施した。

10段階拡散スケジュール（mask_probs: 1.0~0.1）から1つを各バッチごとにサンプリングしてマスキング
カスタム diffusion_collator でマスキング確率を決定し、各トークンごとに確率的に <MASK> を適用
プロンプト文脈の維持のため最初の16トークンは常に保持

データマスキング（カスタム collator）:

各サンプルのトークン束をパディング後、マスキング確率をランダム選択
最初の16トークンを除く残りに対して確率的に <MASK> を適用
マスキング済みデータと正解ラベルセットを返す

生成（推論）:

256トークン長のシーケンスを入力し、最初の16トークンはプロンプト、残りは <MASK>
各ステップでモデルが予測したトークンをサンプリングして埋め、さらに一定比率を再びリマスキング
マスキング比率を徐々に減らして繰り返し、最後には全体が復元される

サンプル生成結果:

プロンプトに続く自然な後続テキストを含み、実際にかなり一貫性のあるテキストが生成される
一部の特異点は、WikiText のデータ前処理形式（例: @-@ ハイフン）に起因する

GPT-2 との比較

GPT-2 はやや高速で一貫性も高いが、RoBERTa Diffusion も期待を上回る性能を示す（さらに漸進的な改善の余地が高い）
新しい AR-Diffusion、Skip-Step Diffusion 方式と最適化により品質/速度の向上が可能

結論

**RoBERTa のように設計されたマスク付き言語モデルでも、マスキング率を調整しながら訓練すれば自然言語生成エンジンになり得る
<MASK> トークンでテキストを段階的に劣化/復元する学習方式だけでも、完全に生成的モデルへ変換できる可能性を確認
構造そのものを変更せず、訓練目標の変更だけで生成能力を確保できる
結果として、BERT 系モデルも本質的には1つのテキスト拡散モデルと一致する