2 ポイント 投稿者 GN⁺ 2023-07-15 | 1件のコメント | WhatsAppで共有

1件のコメント

 
GN⁺ 2023-07-15
Hacker Newsのコメント
- 著者らは「正規化圧縮距離」(NCD)という距離関数を使って、圧縮された文書に kNN を適用します。
- この方法は、zero-shot 分類タスクで BERT より高い性能を示します。
- 多くの単語が重なる場合、Gzip は強力ですが、DNN は意味的類似性でより優れています。
- 結果は興味深いものの、見た目ほど驚くべきものではありません。
- 分布外データでは、BERT のほうが依然として高い性能を発揮します。
- 圧縮アルゴリズムと ML モデルはどちらも圧縮の一形態であり、人間の言語やデータの性能を説明する根本的な特性があるのかもしれません。
- リンクは、指定された URL の論文を指しているはずです。
- 類似したテキスト断片をつなげるほうが、別の断片同士よりもうまく圧縮されます。
- Gzip は入力を認識してラベル付けできるような形で表現するため、圧縮により適している可能性があります。
- 「not」のように文の意味を反転させる単語については、Gzip はうまく扱えない可能性があります。```