1 ポイント 投稿者 GN⁺ 2023-07-25 | 1件のコメント | WhatsAppで共有
  • 現代のAIにおけるアテンションの定式化には、Transformerモデルの圧縮とデプロイを難しくする off-by-one エラーがあります。
  • このエラーはモデル内の外れ値重みと関係しており、これらの外れ値は他よりはるかに大きいため、性能低下と量子化の困難を引き起こします。
  • このバグはアテンション機構で使われる softmax 関数に関係しており、この関数はこの役割に適していません。
  • 提案されている解決策は softmax 関数に小さな修正を加えることで、分母に 1 を足すことにより、アテンションヘッドが情報を追加できないときに「何も言わない」ようにします。
  • この修正である Softmax Super-Mod または QuietAttention は、外れ値のフィードバックループを解消し、量子化を改善すると期待されています。
  • 実験では、この解決策の効果を検証するために、入力コンテキストの先頭に 0 ベクトルを付加し、重みの尖度と活性化の無限ノルムを観察できます。
  • 著者は、この解決策をさらに探究し検証するための協力と実験を呼びかけています.

1件のコメント

 
GN⁺ 2023-07-25
Hacker Newsの意見
  • ソフトマックスの分母に1を足すことを提案する著者
  • この変更により、ネットワークは高いまたは低い重みを与えることで、何かに対する高い確信を選ばないようにできます。
  • 一部のコメント投稿者はこの変更の重要性に疑問を呈し、以前にも似たようなテクニックが使われていたと示唆しています。
  • 別の人たちは、この記事のアカデミックすぎない文体と、新しいアイデアを探求しようとする姿勢を称賛しています。
  • あるコメント投稿者は、当初は他の人々に無視されていた人気アルゴリズムの誤りを見つけた個人的な経験を共有しています。
  • 別のコメント投稿者は、著者が実際の問題を見抜き、シンプルな解決策を提案した点を称賛しています。
  • しかし彼らは、この解決策が外れ値のフィードバックループを解決するという主張について、著者にさらなる証拠と説明を求めています。
  • 一部のコメント投稿者は、提案された解決策を検証するために、追加実験と詳細な調整が必要だと示唆しています。
  • あるコメント投稿者は2020年の論文に言及し、量子化の問題を解決できる別のアテンションの式を提案しています。
  • 分母に1を足すこの方法は、ダミートークンの使用が一般的になる前には頻繁に使われていたことが指摘されています。
  • 一部のコメント投稿者は著者の口調を批判し、研究コミュニティにおけるこの技術への認識不足に驚きを示しています。