テキスト分類では、GzipとKNNがTransformersを上回る (twitter.com/LukeGessler) 2 ポイント 投稿者 GN⁺ 2023-07-15 | 1件のコメント | WhatsAppで共有 関連記事 「"gzip beats BERT" 論文の不正確な数値?」 1 ポイント · 1件のコメント · 2023-07-18 10行未満のコードでGZIPを使いMNISTで78%の精度を達成 1 ポイント · 1件のコメント · 2023-09-21 最高の機械学習アルゴリズム 21 ポイント · 0件のコメント · 2022-03-16 Convolution帝国の逆襲 6 ポイント · 0件のコメント · 2023-10-31 1件のコメント GN⁺ 2023-07-15 Hacker Newsのコメント - 著者らは「正規化圧縮距離」(NCD)という距離関数を使って、圧縮された文書に kNN を適用します。 - この方法は、zero-shot 分類タスクで BERT より高い性能を示します。 - 多くの単語が重なる場合、Gzip は強力ですが、DNN は意味的類似性でより優れています。 - 結果は興味深いものの、見た目ほど驚くべきものではありません。 - 分布外データでは、BERT のほうが依然として高い性能を発揮します。 - 圧縮アルゴリズムと ML モデルはどちらも圧縮の一形態であり、人間の言語やデータの性能を説明する根本的な特性があるのかもしれません。 - リンクは、指定された URL の論文を指しているはずです。 - 類似したテキスト断片をつなげるほうが、別の断片同士よりもうまく圧縮されます。 - Gzip は入力を認識してラベル付けできるような形で表現するため、圧縮により適している可能性があります。 - 「not」のように文の意味を反転させる単語については、Gzip はうまく扱えない可能性があります。```
1件のコメント
Hacker Newsのコメント