アテンションは1つずれて間違っている
(evanmiller.org)- 現代のAIにおけるアテンションの定式化には、Transformerモデルの圧縮とデプロイを難しくする off-by-one エラーがあります。
- このエラーはモデル内の外れ値重みと関係しており、これらの外れ値は他よりはるかに大きいため、性能低下と量子化の困難を引き起こします。
- このバグはアテンション機構で使われる softmax 関数に関係しており、この関数はこの役割に適していません。
- 提案されている解決策は softmax 関数に小さな修正を加えることで、分母に 1 を足すことにより、アテンションヘッドが情報を追加できないときに「何も言わない」ようにします。
- この修正である Softmax Super-Mod または QuietAttention は、外れ値のフィードバックループを解消し、量子化を改善すると期待されています。
- 実験では、この解決策の効果を検証するために、入力コンテキストの先頭に 0 ベクトルを付加し、重みの尖度と活性化の無限ノルムを観察できます。
- 著者は、この解決策をさらに探究し検証するための協力と実験を呼びかけています.
1件のコメント
Hacker Newsの意見