Differential Transformer
(arxiv.org)-
Transformerは、しばしば無関係な文脈に過剰な注意を割り当てる傾向がある。
-
Diff Transformerは、関連する文脈への注意を増幅し、ノイズを除去する新しいアプローチを提案する。
-
差分注意メカニズム
- 2つの独立したソフトマックス注意マップの差によって注意スコアを計算する。
- この減算によりノイズを取り除き、疎な注意パターンの出現を促進する。
-
実験結果
- 言語モデリング実験において、Diff Transformerはさまざまなモデルサイズと学習トークン設定でTransformerを上回る性能を示した。
- 実用的な応用では、長文脈モデリング、重要情報検索、ハルシネーション緩和、インコンテキスト学習、活性化外れ値の低減などで注目すべき利点を提供する。
-
実用上の利点
- 無関係な文脈に妨げられにくく、質問応答やテキスト要約におけるハルシネーションを緩和できる。
- インコンテキスト学習で精度を向上させるだけでなく、順序変換に対する頑健性も高める。
-
結論
- Diff Transformerは、大規模言語モデルを発展させるための非常に効果的で有望なアーキテクチャとして位置づけられる。
GN⁺の要約
- Diff Transformerは、Transformerの限界を克服するために提案された新しいアーキテクチャで、関連する文脈への注意を増幅し不要なノイズを除去することに重点を置いている。
- この研究は、大規模言語モデルの性能向上を示し、特に長文脈モデリングのような実用的応用での利点を強調している。
- 無関係な文脈に妨げられにくくなることでハルシネーションを緩和し、インコンテキスト学習の精度と頑健性の向上に寄与する。
1件のコメント
Hacker Newsの意見
一般的な softmax 注意機構は、無関係な情報に対して 0 に近い注意重みを割り当てるのが苦手。新しい方法はこれを解決するが、負の注意重みが生じる可能性もある。ネットワークがこれをどう解決するのか理解しにくい
このような細かな改善はとても興味深い。変化が小さいため、他の人も簡単に適用できる。ただし、「2 Differential Transformer」セクションの最後の文が明確ではなく、比較に影響する可能性がある
機械学習の新しい世界では、なぜこのような方法が効果的なのか混乱する。ノイズキャンセリングヘッドホンのたとえは役に立つが、ここでは信号とノイズを明確に区別できない
Differential attention は、2つの softmax 注意機能の差を利用して注意ノイズを除去する。このアーキテクチャは、より高品質なモデルのために 2 倍の注意メモリを使うか、同程度の品質でより少ないパラメータを使う
2つの注意グループが同じものを学習すると、注意マスクが互いに差し引かれて注意が 0 に落ち、損失が高くなる。損失を減らすには別のものを学習する必要がある。1つのグループは関連する文脈に、もう1つのグループは無関係な文脈に集中する戦略を学習する
λᵢₙᵢₜ = 0.8 − 0.6 × exp(−0.3 · (l − 1)) という設定が実験的にうまく機能している。この式の背景が気になる
位置ノイズが除去されることにどれほど価値があるのか気になる。alibi バージョンと alibi ベースラインの比較表を見てみたい。研究者たちに祝意を表したい
ここで何が失われるのか気になる。創造性や概念間の補間能力にどのような影響があるのか気になる。幻覚と創造性は非常に関連しているように感じる
問題解決自体は良いが、アプローチが間違っていると思う。階層的な方法で全体の文脈を把握すべきだ。注意ベクトルと同じ入力で差分ベクトルを計算しても、注意ベクトルを正しく修正する方法は分からない
softmax は値を 0 に押しやれないが、2つの softmax マップを引き算すれば 0 を出力できるのか気になる