1 ポイント 投稿者 GN⁺ 2023-07-18 | 1件のコメント | WhatsAppで共有
  • Twitterで注目を集めた最近の論文「著者なし」テキスト分類: 圧縮器を使ったパラメータ不要の分類手法
  • この論文の著者は結果を再現するためにソースコードを確認し、kNNコードにバグや予期しない選択肢を発見しました。
  • コードのバグにより、この手法の精度の数値は予想より高く表示されます。
  • 論文のTable 5では、gzip手法が他のニューラルネットワークベースの手法より優れた性能を示しています。
  • 著者は数値を再計算し、修正された結果が実験の結論を大きく変えていたことを発見しました。
  • 論文はk=2のkNN分類器を使用していましたが、これはkNN分類としては奇妙な選択です。
  • ソースコードには、報告された精度に影響を与える予期しない優先順位決定戦略があります。
  • 著者は、結果を比較するために別の優先順位決定戦略を使った独自実装を提供しています。
  • 再計算された結果では、元のコードと著者の実装が類似した結果を示しています。
  • フィリピンのデータセットにおける高い精度と、"table5" と "code" の結果のわずかな差については、依然として疑問が残っています。

1件のコメント

 
GN⁺ 2023-07-18
Hacker Newsの意見
  • "gzip beats BERT" 論文のミスは、MLにおける方法論上の不注意な誤りです。
  • MLに圧縮アルゴリズムを適用することは「ただ飯」ではなく、特別な魔法を生み出せない可能性があります。
  • ブログ記事の著者は、この論文に関するGitHub Issueを提出しました。
  • 良い科学には優れたソフトウェアエンジニアリングが必要であり、実験でのミスはよくあります。
  • この問題に関するブログ記事は、問題に光を当てるものとして歓迎されています。
  • 論文で分類器としてkNNを選んだことに疑問が呈され、代替アルゴリズムが提案されています。
  • 論文の結果は、圧縮アルゴリズムがLLMに勝てる方法について疑問を投げかけました。
  • この論文について大げさな主張をした人たちは、その主張を見直す必要があるかもしれません。
  • ブログ記事はTwitterでさらなる議論と分析を引き起こしました。
  • 論文の結果において、ランダムに発生する同点を考慮すべき可能性が指摘されました。