- Google Ngram Viewer の n-gram の不正確さに関する記事
- Ngram が示す一般的な英単語の頻度は、20世紀の実際の使用を正確に反映していないという著者の指摘
- 著者と Talia Felix は研究に Google Books を使用したが、多くの隠れた誤りを含む、誤って組み立てられたデータベースであることが判明
- Ngram の仕組みにおいて Google Books から受け継がれた誤りの1つとして、多くの英単語が20世紀を通じて使用減少し、1980年代に再び復活したかのように見える現象の説明
- この誤りは、Google Books のコーパスが主として学術的なものであり、現代の科学・学術ジャーナルが限られた単語を反復的に使用する傾向にあるために発生
- 学術的な文章で特定の単語が過剰に使用されることで、他の単語の頻度が誤って低く見積もられ、ほぼすべての単語の Ngram に20世紀半ばの「下降」が生じる
- 別の誤りとして、Google Books は異綴りや複数形における同一性を認識できない
- Google Books の多くのファイルに誤った日付が付けられており、それがデータの正確性をさらに損なっているという著者の指摘
- こうした不正確さにもかかわらず、オンラインでは写真が勝ち、言葉が負けるため、Ngrams はなお使われ続けている
- 著者は、Ngrams を装飾的で風変わりなものであり、単語使用の正確な表現ではないと見るよう読者に勧めている
- 著者は、たとえ世界が Ngram の現実を好むとしても、読者はそれより賢くなれると結論づけている。
1件のコメント
Hacker Newsの意見