wordfreqがこれ以上更新されない理由
生成AIがデータを汚染している
- 2021年以降、人間の言語使用に関する信頼できる情報がない
- wordfreqのデータソースの1つだったオープンウェブ(OSCAR)は、今では大規模言語モデルが生成した無意味なテキストで埋め尽くされている
- このようなテキストをデータに含めると、単語頻度が歪められる
- たとえば、ChatGPTは
delveという単語に執着し、その頻度を異常に押し上げている
無料だった情報が高価になった
- wordfreqはTwitterとRedditから会話的な言語使用データを収集していた
- Twitterのデータは以前から不安定だったうえ、今ではTwitterが姿を消してXに置き換えられた
- Redditも公開データアーカイブの提供をやめ、今ではOpenAIしか支払えないような価格でデータを販売している
もうこの分野に関わりたくない
- wordfreqはコーパス言語学や自然言語処理ツールに役立ってきた
- しかし現在の自然言語処理分野は、生成AIによって侵食されている
- OpenAIやGoogleが管理する閉鎖的なデータに依存しないNLP研究を見つけるのは難しい
- テキスト収集ツールは今や主に生成AIの訓練に使われており、これは著作権侵害の問題を引き起こす
- 生成AIと混同されかねない仕事には関わりたくない
GN⁺のまとめ
- wordfreqは2021年までの言語データを基盤としたプロジェクトだった
- 生成AIの登場でデータの信頼性が低下し、TwitterやRedditのような主要データソースが有料化されたことで更新が停止された
- 自然言語処理分野が生成AIに侵食されるなか、著者はもはやこの分野に関わりたくないと述べている
- 類似機能を持つプロジェクトとして、Google Ngram Viewerのような代替ツールが勧められている
1件のコメント
Hacker Newsの意見