1 ポイント 投稿者 GN⁺ 2023-09-21 | 1件のコメント | WhatsAppで共有
  • GZIPを使って、10行未満のコードでMNISTデータセットにおいて78%の精度を達成した記事
  • 著者は、最先端の結果を達成することではなく、圧縮をユニークでモデル不要の分類ツールとして使う可能性を示すことがこの投稿の新規性だと強調
  • 提示されたコードは、GZIPとNCD(Normalized Compression Distance)を類似度指標として用い、分類にはk-NN(k-Nearest Neighbors)を使用
  • GZIPは個々のデータポイントの複雑さ、あるいは情報量を測るツールとして使われ、NCDは2つのデータポイントがどれほど似ているかを正規化した尺度を提供
  • アルゴリズムは、すべての訓練サンプルとのNCDを計算し、それをソートして、最小の距離を持つk個を選択する。このk=5の最近傍のうち多数派のクラスが、テストサンプルのラベルとして予測される
  • 著者は、このアプローチは計算コストが高く、精度測定のためにテスト画像の一部しか使われていないことを認めている
  • 著者は、より理解しやすいように、アルゴリズムのより難読化されていないバージョンも提供
  • 著者は、2019年にAndreas Kirschが取った類似のアプローチに言及しており、こちらは約35%の精度を達成していた
  • 著者は、データ圧縮によるテキスト生成に関する投稿を読み、さらにパラメータ不要のテキスト分類に関する論文を読んだことをきっかけに、圧縮を画像分類の仕組みとして使うようになった
  • 著者は以前、エッジコンピュータビジョン向けの画像圧縮に取り組んでおり、この技術をMNISTデータセットへ適用することに関心を持っていた

1件のコメント

 
GN⁺ 2023-09-21
Hacker Newsの意見
  • GZIPを使ってMNISTデータセットで10行未満のコードにより78%の精度を達成した記事
  • コメント投稿者たちは、コード内の距離関数をより単純な測定法に置き換えてみたところ、精度が向上し計算要件も減少したとしている
    • ユークリッド距離は画像を二値化した後、約0.5秒で93%の精度を達成
    • ジャカード距離は画像を二値化した後、約0.7秒で94%の精度を達成
    • ダイス不一致は画像を二値化した後、約0.8秒で94%の精度を達成
  • 比較のための他の手法としては、Linear SVCが92%の精度、SVC rbfが96.4%の精度、SVC polyが94.5%の精度、ロジスティック回帰が89%の精度、そしてナイーブベイズが81%の精度を示した
  • コメント投稿者たちは、コードがエレガントで簡潔であっても、MNISTに対して78%の精度は低いと見なされ、TensorFlowで書かれたダミーモデルでも容易に90%の精度を達成すると示唆している
  • MNISTにおける最高のモデルは99.87%の精度でランク付けされている
  • 一部のコメント投稿者は、正規化圧縮距離(NCD)をユークリッド距離に置き換えると、テスト精度が15%向上し、多くの計算を節約できると提案している
  • 一部のコメント投稿者は、MNISTデータセットは引退すべきだと提案しており、その理由はその上で高い精度を達成することが比較的容易になったためである
  • 高度に圧縮されたデータからパターンを見つけ、より良い圧縮につなげる可能性についての議論がある
  • 一部のコメント投稿者は、汎用圧縮器と代替言語モデルに対する情報距離測定に関心を示している
  • あるコメント投稿者は、候補シーケンス間の離散畳み込みと正規化圧縮距離(gzip)を組み合わせた注意機構の利用について言及している