「"gzip beats BERT" 論文の不正確な数値?」
(kenschutte.com)- Twitterで注目を集めた最近の論文「著者なし」テキスト分類: 圧縮器を使ったパラメータ不要の分類手法
- この論文の著者は結果を再現するためにソースコードを確認し、kNNコードにバグや予期しない選択肢を発見しました。
- コードのバグにより、この手法の精度の数値は予想より高く表示されます。
- 論文のTable 5では、gzip手法が他のニューラルネットワークベースの手法より優れた性能を示しています。
- 著者は数値を再計算し、修正された結果が実験の結論を大きく変えていたことを発見しました。
- 論文はk=2のkNN分類器を使用していましたが、これはkNN分類としては奇妙な選択です。
- ソースコードには、報告された精度に影響を与える予期しない優先順位決定戦略があります。
- 著者は、結果を比較するために別の優先順位決定戦略を使った独自実装を提供しています。
- 再計算された結果では、元のコードと著者の実装が類似した結果を示しています。
- フィリピンのデータセットにおける高い精度と、"table5" と "code" の結果のわずかな差については、依然として疑問が残っています。
1件のコメント
Hacker Newsの意見