1 ポイント 投稿者 GN⁺ 2023-09-27 | 1件のコメント | WhatsAppで共有
  • Google Ngram Viewer の n-gram の不正確さに関する記事
  • Ngram が示す一般的な英単語の頻度は、20世紀の実際の使用を正確に反映していないという著者の指摘
  • 著者と Talia Felix は研究に Google Books を使用したが、多くの隠れた誤りを含む、誤って組み立てられたデータベースであることが判明
  • Ngram の仕組みにおいて Google Books から受け継がれた誤りの1つとして、多くの英単語が20世紀を通じて使用減少し、1980年代に再び復活したかのように見える現象の説明
  • この誤りは、Google Books のコーパスが主として学術的なものであり、現代の科学・学術ジャーナルが限られた単語を反復的に使用する傾向にあるために発生
  • 学術的な文章で特定の単語が過剰に使用されることで、他の単語の頻度が誤って低く見積もられ、ほぼすべての単語の Ngram に20世紀半ばの「下降」が生じる
  • 別の誤りとして、Google Books は異綴りや複数形における同一性を認識できない
  • Google Books の多くのファイルに誤った日付が付けられており、それがデータの正確性をさらに損なっているという著者の指摘
  • こうした不正確さにもかかわらず、オンラインでは写真が勝ち、言葉が負けるため、Ngrams はなお使われ続けている
  • 著者は、Ngrams を装飾的で風変わりなものであり、単語使用の正確な表現ではないと見るよう読者に勧めている
  • 著者は、たとえ世界が Ngram の現実を好むとしても、読者はそれより賢くなれると結論づけている。

1件のコメント

 
GN⁺ 2023-09-27
Hacker Newsの意見
  • 「確実性を渇望する者は嘘を渇望する」という記事タイトルが、プロジェクト日程における確実性への欲求についての議論を引き起こした。
  • 記事は現代のアルゴリズムにおける ngrams の使用を批判し、これらは信頼できず無知な技術の産物だと主張している。
  • ngrams への批判は、本質的に ngram 予測器である生成AIによってますます支配される時代への警告と見なされている。
  • 一部のコメントは、ngram 統計に関する著者らの主張の妥当性に疑問を呈し、証拠不足や誤解を招くグラフ解釈を指摘している。
  • データ分析の根本的な問題が強調され、分析はデータ次第であり、データ品質を評価することの難しさが示されている。
  • 一部のコメントは、記事タイトルと科学出版物におけるクリックベイト傾向を批判している。
  • Google Ngram の使用が議論され、一部ではそれ自体が間違っているのではなく、その統計が文脈から切り離されていると主張されている。
  • 記事は、グラフの縦軸に 0 が含まれていないため、小さな変動が大きく見える可能性がある点を批判している。
  • 内在するデータ損失のため、過去を代表するイメージを構成することは不可能だという議論がなされている。