1 ポイント 投稿者 GN⁺ 2024-09-19 | 1件のコメント | WhatsAppで共有

wordfreqがこれ以上更新されない理由

生成AIがデータを汚染している

  • 2021年以降、人間の言語使用に関する信頼できる情報がない
  • wordfreqのデータソースの1つだったオープンウェブ(OSCAR)は、今では大規模言語モデルが生成した無意味なテキストで埋め尽くされている
  • このようなテキストをデータに含めると、単語頻度が歪められる
  • たとえば、ChatGPTはdelveという単語に執着し、その頻度を異常に押し上げている

無料だった情報が高価になった

  • wordfreqはTwitterとRedditから会話的な言語使用データを収集していた
  • Twitterのデータは以前から不安定だったうえ、今ではTwitterが姿を消してXに置き換えられた
  • Redditも公開データアーカイブの提供をやめ、今ではOpenAIしか支払えないような価格でデータを販売している

もうこの分野に関わりたくない

  • wordfreqはコーパス言語学や自然言語処理ツールに役立ってきた
  • しかし現在の自然言語処理分野は、生成AIによって侵食されている
  • OpenAIやGoogleが管理する閉鎖的なデータに依存しないNLP研究を見つけるのは難しい
  • テキスト収集ツールは今や主に生成AIの訓練に使われており、これは著作権侵害の問題を引き起こす
  • 生成AIと混同されかねない仕事には関わりたくない

GN⁺のまとめ

  • wordfreqは2021年までの言語データを基盤としたプロジェクトだった
  • 生成AIの登場でデータの信頼性が低下し、TwitterやRedditのような主要データソースが有料化されたことで更新が停止された
  • 自然言語処理分野が生成AIに侵食されるなか、著者はもはやこの分野に関わりたくないと述べている
  • 類似機能を持つプロジェクトとして、Google Ngram Viewerのような代替ツールが勧められている

1件のコメント

 
GN⁺ 2024-09-19
Hacker Newsの意見
  • GoogleのSEOルールによってウェブは汚染されてしまった。短い段落、キーワードの反復、読みやすさよりもインデックスしやすさを重視する書き方が問題だ
    • ML/LLMは2つ目の汚染要因だ。1つ目は企業ボット向けの文章作成だった
  • 2023年にLowBackgroundSteel.aiを作り、汚染されていないデータセットを集める場所として使っている
    • Wordfreqを追加する予定だ。Tumblrに資料を投稿してほしいという依頼だ
  • NLPコミュニティへの失望は理解できるが、全員がそうではない
    • ウェブ汚染の問題は新しいものではない。PageRankを操作しようとするスパムファームなどもあった
    • それぞれの世代のウェブには、その世代の問題を克服するための技術が必要だ
    • George Orwellの1984で予見された自動生成コンテンツの消費が現実になった。しかしこの技術は良い方向にも使える
  • ウェブは死んだと思う。AIのせいで有用な情報を見つけるのにより時間がかかる
    • 特定のワイヤレスイヤホンを探すのに10分以上かかった。サイトがゴミだらけだ
    • 古いノートPCではグラフィックの多い現代のウェブサイトを閲覧しにくい
    • ウェブ、ウェブブラウザ、ウェブデザイン、SEO、検索、広告など、すべてが嫌いだ。ウェブを使わずに購入できる方法を探している
  • Google Trendsのリンクを共有し、「delve」の検索結果は増えていなかったという面白い事実に触れている
  • 2021年以降、人間の言語使用について信頼できる情報はないと思う
    • テキストはすでに臨界点を超えたが、動画は今が重要な時期だ
    • 特に幼い子どもは何が本物なのか見分けにくい。技術はすでに存在するが、ほとんどの動画コンテンツはまだ影響を受けていない
  • ウェブがLLMによって生成されたゴミであふれているという意見に同意する
    • 多くの場合、SEOのために価値のないコンテンツが生成されている
  • AGIが安価で利用しやすくなれば、ほとんどの作業はAIによって行われるだろう
    • AI革命はAIのルーツに最も近い分野から始まるべきだ
  • 2020年以前の紙の本は価値ある資産になるかもしれない
    • インターネットはゴミであふれ、現代の紙の本も疑われるようになるだろう
    • AIが書いた本の著者として人間が包装されるだろう
  • AIのせいで仕事を失った作家は、AIハイパースケーラーに雇用されるべきだ
    • ただし、その作品にはAIが生成した文があってはならない