Vision Transformerにおけるレジスタ(Registers)の必要性が浮上
(openreview.net)Vision Transformerにレジスタが必要
- 著者: Timothée Darcet, Maxime Oquab, Julien Mairal, Piotr Bojanowski
- ICLR 2024 口頭発表
- 2024年1月16日掲載、2024年4月12日最終改訂
要約
- 教師あり学習および自己教師あり学習で訓練されたVision Transformer(ViT)モデルの特徴マップにおいて、アーティファクトを発見し特性評価
- 推論中、主に情報量の少ない背景領域に現れる高ノルムのトークンは、内部計算のために再利用されることに対応するアーティファクト
- ViTの入力シーケンスに追加トークン(「レジスタ」と呼ぶ)を与える、シンプルだが効果的な解決策を提案
- 教師あり・自己教師ありモデルの両方でこの問題を完全に解決し、高密度な視覚予測タスクにおいて自己教師あり視覚モデルの新たなSOTAを打ち立て、より大きなモデルで物体検出手法を可能にし、何よりもダウンストリームの視覚処理に向けてより滑らかな特徴マップとアテンションマップにつながる
実験と分析
- アーティファクトに関する調査は非常に独創的かつ徹底的。グラフと説明は非常に洞察に富み、実験も包括的
- 提案されたレジスタトークンの導入は非常にシンプルかつエレガントで、より解釈しやすいアテンションマスクを提供
- 制限事項に関する記述を高く評価
- 論文は追いやすく、可視化も直感を与えるのに役立っている
改善点
- レジスタトークンを追加することで外れ値トークンの挙動が除去されたことを示す実験が不足している。提案モデルで画像/レジスタトークンへ伝達されるかを確認できると興味深い
- 教師なし物体検出に対するモデル性能の議論が限定的で、結果とも一致していない
- DINOv2+regの利得は印象的だが、DINOと一致しない理由について、さらに議論または定性的な例が必要
- すべてのモデルでレジスタが教師なし物体検出性能を向上させるとしているが、OpenCLIPの性能はむしろ低下している
GN⁺の意見
-
限られたpatch-levelの冗長性を減らすために、レジスタ以外の方法もあり得る。MAEのようにpatch-level再構成が表現の冗長性を緩和すべき他の自己教師ありモデルでも、同様の効果が観察されるのか気になる
-
OpenCLIPの性能低下については追加説明が必要に見える。また、DINOのLOST性能がDINOv2より良い理由についても説明が不足している
-
DINOv2が高密度なマスク画像モデリング目的関数を使っていながらこのような挙動を示すのは意外。マスク画像目的関数がパッチ特徴に情報保持を要求するにもかかわらず、なぜこの挙動を防げなかったのか気になる
-
データセット自体のバイアスとラベルのバイアスを区別する必要がありそう。SSLはラベルバイアスの影響を比較的受けにくいが、Instagram vs iNaturalistのようなデータソースによるバイアスは依然として存在し得る
-
より大きなモデルで外れ値トークンが現れると示唆しているが、CLIP/DEITのbaseモデルではそうではない。2.2節の末尾にこれについてのコメントがあるとよい
-
レジスタを追加したDINOモデルの教師なし物体検出性能が、OpenAIのCLIPやGoogleのLiTなど類似機能を持つ他モデルと比べてどうなのか気になる
-
ViTベースのモデルで観察される外れ値トークン現象がCNNベースのモデルでも現れるのか、トランスフォーマー構造特有のものなのかを分析するとよい
-
実際の応用でレジスタトークンを使う際、計算量増加による性能低下がないか、最適なレジスタ数をどう決めるかについてのガイドラインがあると役立ちそう
まだコメントはありません。