wordfreqが更新を停止した理由

(github.com/rspeer)

1 ポイント投稿者 GN⁺ 2024-09-19 | 1件のコメント | WhatsAppで共有

wordfreqは2021年までに複数のオンラインソースで観測された言語使用のスナップショットであり、その後にデータを更新すると、かえって品質が悪化する可能性があるため、最新バージョンを維持したまま凍結された
2021年以降、公開Webには人が書いた文章のように見えるAI生成テキストが広く流通し、実際の人間の言語使用を基準にした単語頻度の測定が難しくなった
既存データにもスパムはあったが、おおむね識別・管理可能だった一方、ChatGPTの「delve」の事例のように、生成AIの出力は特定の単語頻度を異常に押し上げることがある
口語的な言語の重要なソースだったTwitterとRedditのデータへのアクセスは失われるか高額化し、Twitterの過去データは配布条件上、外部配布も不可能だった
自然言語処理分野が生成AIとクローズドデータ依存へ傾く中で、開発者はwordfreqが生成AIの役に立ったり、その作業と混同されたりすることを望んでいない

2024年9月の補足

wordfreq更新停止の文書は大きな関心を集め、開発者は人々が自分の立場をおおむね理解していると見ている
オープンソースライブラリの作業自体をやめたわけではなく、多目的なUnicode修正ツール ftfy は引き続き開発中である
データの凍結は必ずしも悪い結末ではない
- 多くの人がwordfreqを有用に使ってきており、最新バージョンが消えることはない
- 更新するとデータがさらに悪くなる可能性があるという判断から、これ以上更新しない
- 時間の経過とともに古くはなるが、能動的に悪化することはない

2021年までの言語使用のスナップショット

wordfreqデータは、2021年までに複数のオンラインソースで見つけられた言語使用のスナップショットである
もはや更新しない理由として、データ汚染、アクセスコスト、自然言語処理分野の変化が重なっている

生成AIに汚染された公開Web

2021年以降、人間が実際に使っている言語についての信頼できる情報を得るのは難しいと判断している
wordfreqのデータソースの1つだった公開Webは、OSCARを通じて利用されていた
現在の広い意味でのWebには大規模言語モデルが生成したテキストが多く、それを含めると単語頻度が歪められる
既存のデータソースにもスパムはあったが、多くの場合は管理可能で識別もできた
大規模言語モデルは、実際の意図を持った言語のように見えるテキストを作り、その出力がさまざまな場所に広がる
Philip Shapiraのdelveに関する記事によれば、ChatGPTは「delve」を人間が使っていたやり方とは異なるほど執拗に使い、その全体頻度をorder of magnitude級に押し上げた

失われた、または高額になった口語データ

wordfreqは形式的な印刷語だけを扱っていたのではなく、より口語に近い言語使用を特にTwitterとRedditから収集していた
TwitterとX
- Twitterデータ基盤は最初から不安定だった
- Twitterが「firehose」の一部への無料アクセスを許可していた時期でさえ、利用規約上、収集データをLuminosoの外へ配布することはできなかった
- wordfreqにはそのデータを入力として作られた頻度値が含まれているが、収集データ自体は開発者の所有物ではなく、現在は保持していない
- 現在、Twitterは消滅し、公開APIは閉じられ、サイトはXに置き換えられた
- たとえXが生データフィードを提供したとしても、有益な情報は見つからないだろうと判断している
Reddit
- Redditも公開データアーカイブの提供を停止した
- 現在のRedditはアーカイブを販売しており、その価格はOpenAIしか支払えない水準だと表現している

生成AIと距離を置きたい理由

wordfreqはもともと、コーパス言語学と自然言語処理ツールに役立つ作業の交点にあった
開発者が知っていた「natural language processing」という分野は今では見つけにくくなり、生成AIがその領域を飲み込んでいると見ている
他の手法も依然として存在するが、生成AIが関心と資金の大半を持っていっている
OpenAIとGoogleが管理するクローズドデータに依存しないNLP研究は、今では珍しいと判断している
wordfreqのように、多言語の大量テキストを収集する作業は、かつてはかなり合理的だと考えられていた
現在、テキスト収集ツールは主に生成AIの訓練に使われており、人々がそれに防御的に反応するのは正当だと見ている
本、文章、Webサイト、公開投稿のテキストをすべて収集するなら、その目的は、利用者の言葉を自分のもののように主張する剽窃マシンを作ることになる可能性が高いと判断している

更新停止の結論

開発者は、生成AIと混同されうる作業や、生成AIの役に立ちうる作業をしたくないと考えている
OpenAIとGoogleは自分たちのデータを自力で収集すべきであり、その対価を非常に高く支払うことを望むと述べている
wordfreqは今後更新されないが、既存の最新バージョンは維持される

1件のコメント

GN⁺ 2024-09-19

Hacker News の意見

おおむね同意するが、Web はすでに Google の非公式な SEO ルールに汚染されていた
1文だけの段落、キーワードの繰り返し、読みやすさよりも「インデックスされやすさ」を重視するやり方のせいで、LLM 以前から Web はこうした分析に理想的な資料源ではなかった
学習データとしても同様で、結局 LLM は人間のために書かれた文章ではなく、Googlebot のために書かれた文章を食べて育った。ML/LLM は文章作成の汚染の2回目の反復であり、1回目は人間がほかの人間ではなく企業のボットのために文章を書き始めたときだった
- ブログスパムはおおむね人間が書いたものだったし、別の理由でひどいにしても、人間が書いたテキストの基本的な 単語頻度を測るには問題なさそうに見えた
  頻度には偏りがあるだろうが、たいていのテキストはそうだし、キャブレター整備の教科書には “carburetor” という単語が基準線よりはるかに多く出てくるに決まっている
  多様な本、ニュース記事、ブログが健全に混ざっていれば問題ない。一方で LLM コンテンツは 自分の尻尾を食べる蛇に近く、単語分布モデルの出力物から、さらに単語分布の統計モデルを作ろうとしているようなものだ
- ある時点では、特定の言語使用が、単語頻度を数えている 媒体そのものの特性だという点も認める必要がある
  新聞、小説、上司に送るメールなどにも、文や段落の長さ、不要な反復、読みやすさ以外の指標を重視する独特の文体がある
  少なくとも、ほかの誰かに読まれる可能性を念頭に置いた人間が書いたテキストなら、機械が生成したテキストよりはずっと正当な言語使用と見なせる
- これは2度目で、しかもはるかに大規模な Eternal September のように感じる
  インターネットがこれにあとどれくらい耐えられるのか分からないし、2018年よりも利用量が目に見えて減った。今では読むに値するものを見つけるのがあまりに難しく、結局ここで多くの時間を過ごすことになる
- とはいえ、示唆されているほど極端ではない。学習データには 品質指標で重み付けがされ、記者や Wikipedia の寄稿者が書いた文章は、叔母のブラウニーのレシピや企業ブログのスパムより大きな比重を与えられる
- Google 以前には Altavista があり、その時代にもページ下部に白い背景の上に白い文字でキーワードを何百回も埋め込むことは非常によくあった
  SEO スパムは新しいものではなく、形が変わっただけだ
2023年に、汚染されていないデータセットの参照を集める場として https://lowbackgroundsteel.ai/ を作った
wordfreq も追加する予定なので、Tumblr に資料を送ってほしい
- 「ローンチ」おめでとう。自分もほぼまったく同じようなサイトを作ろうとして、しばらくバックグラウンド作業として置いていた。基準日をどこにしているのか気になる
  調査しながら作った有用なリストはこうだ：2017年のトランスフォーマー構造の発明、2018年6月 GPT-1、2019年2月 GPT-2、2020年6月 GPT-3、2022年3月 GPT-3.5、2022年11月 ChatGPT
  定めた基準日以前の kiwix アーカイブも追加するとよさそうだ。Internet Archive で見つけられ、Wikipedia、Stack Overflow、Wikisource、Wikibooks と複数の Wiki のバージョンがある
- 名前がうまい。比喩が気に入った
- これは著者が望んだことと正反対だと思う。著者はもうこの混乱の一部になりたくないのだ
  こういう資料源を集めておけば、大手テック企業がさらに多くのデータをスクレイピングするのがずっと簡単になるだけだ
- 参考までに、私のデータセット DebateSum と OpenDebateEvidence/OpenCaseList は、現在の形を基準にすると遅くとも2022年で終わっているので、これに該当する
- AI グラフィックで汚染されたサイトを信頼してよいのかは分からない /s
私が属している 自然言語処理コミュニティについて OP が失望するようになった状況は残念だし、流行であり、ほとんど過熱のピークに近い流れではあるものの、「私たちがみなそうというわけではない」と言いたい
人工コンテンツで Web が汚染される問題は時宜を得たもので、PageRank を操作しようとしたスパムファームのような以前の事例もあった
だから、人間が手作業でキュレーションした高品質な Web サイトの一覧、いわゆる「小さな Web」に新たな価値が生まれるかもしれない
Web の各世代には、自分たちの世代の敵対的メカニズムを乗り越えるための技術が必要だったし、今の Web も例外ではない
Eric Arthur Blair が「George Orwell」という筆名で 1984 を書いたとき、大衆が批判的思考から遠ざかるように自動生成コンテンツを消費する状況を予見していた。今それが起きているが、批判されている技術も善い目的に使うことはでき、私の NLP 研究チームではそうしようとしている。結局、善は勝つ
- 「善い」小さな Web が実際に勝ったことはあったのか？
  IRC、Usenet、Reddit、Facebook、Geocities、Yahoo、webring など、どんなコンテンツシステムでも主流の利用に達するとノイズに汚染されるように思える
  小さくキュレーションされた選択肢も、結局十分に大きくなると自らの成功の犠牲になり、スパムに乗っ取られる
  常に品質と量の軍拡競争で、最終的にキュレーターが圧倒的な量に追いつけなくなる
- 批判的思考を避ける人たちは、AI コンテンツがあろうとなかろうと、すでにそうしていたし、これからもそうするだろう
- 「結局、善は勝つ」という考えは危険だ。実際にそうなるために必要である可能性が高い 決定的な行動を、かえって先送りさせかねない
- 少し別の話だが、Marx も1894年に暗号資産と NFT が存在することを予測していた https://www.marxists.org/archive/marx/works/1894-c3/ch25.htm
  私たちがこうした「レッドライン」を平然と越え続けているのは奇妙だ。あのミームのように、SF 作家が「警告の物語として Torment Nexus を作った」と言ったのに、テック企業は「古典SF小説『Torment Nexus を作るな』に出てくる Torment Nexus を作った」と言っているようなものだ
- 善が勝つ道が、破壊的に変化した技術と信念を拒否することだとしたらどうだろう？
断言すると、Webは死んだ。「AI」のおかげで、役に立つものを見つけようと検索を掘る時間が2005年よりも長くかかるようになった
見つかったサイトもたいていゴミだ
たとえば有名なワイヤレスイヤホンを1つ探すだけでも、その会社も会社のWebサイトも販売店もすでに知っているのに、少なくとも10分はかかる。ありとあらゆるガラクタの下に埋もれているからだ
私のノートPCは「古い」8コアi7、16GB RAMだが、それでもグラフィックの多い「現代的な」サイトは重すぎる。昔のサイトはシンプルでちゃんと動き、製品をすばやく検索して購入できたのに、昨夜はカートに入れて決済することすら本当に苦行だった
Web、ブラウザ、Webデザイン、SEO、検索、広告、そしてそれに付いてくる安っぽいガラクタすべてが嫌いだ。もう終わりだ。Webなしで何かを買う方法があるなら、そうする。技術そのものを完全に嫌っているわけではないが、Webはいまや腐った卵になった
- Amazonでは以前、レビューとQ&Aを検索ボックスから直接検索できて、ものすごく便利だった
  今ではその検索ボックスはまず検索語をLLMに送り、10〜15秒待たせたうえで、「一部のレビューはあれこれ言っていた」という役に立たない要約を見せてくる
  そのあとでようやく、実際のレビューや質問の中で自分が探した単語を含む項目を見るにはボタンを押せる。これがAmazonをやめさせる決定打になりそうだ。直接検索する方法がまだあるなら教えてほしい
- おおむね反論できない
  昔はTrekの自転車用ディレイラーハンガーを検索すれば、最初の結果が欲しいものだった。今では新しい自転車を買えという広告が5件、壊れたサードパーティのリンクが1件あって、運がよければ1ページ目の一番下にその部品ページへのリンクが出る
  Webのゴミ化は現実だ
- ノートPCが完全に時代遅れのようだ。現代的なSEO負荷に耐えられる次世代ノートPCをAmazonで買うべきだ
  おすすめ商品は LEEZWOO 15.6" Laptop - 16GB RAM 512GB SSD PC Laptop, Quad-Core N95 Processor Up to 3.1GHz, Laptop Computers with Touch ID, WiFi, BT4.2, for Students/Business だ
  名前が実にすらすら読めるだろう
- より良い検索を製品として売っているスタートアップがある。中核機能はお金を払って使うので、自分が商品ではないという点がポイントだ https://kagi.com/welcome
- この10年ほど、Webから少しずつ自分を切り離している。最近は主にネイティブ技術でオフラインアプリを作っている
  そういう能力はまだ残っている。しばらくツールバーやマルウェアで汚染されすぎて後退していただけで、今はマルウェアが反対側にいるので、ネイティブアプリがまた格好よくなった。どこを見るべきかを知っていればいい
  私の看板はここにある: https://akkartik.name/freewheeling-apps
  ただし、ここで言う「Web」は検索エンジン経由でアクセスできるものだけを指しているようだ。今も古いWeb、つまり数十億のユーザーを抱える集約サービスではなく、関係と評判が媒介するWebは存在している。上のリンクや、今われわれが使っているこの英雄的にモデレートされたサイトのように
「2021年以降の人間の言語使用について信頼できる情報を持っている人はいないと思う」という言葉に共感する
テキストはすでにティッピングポイントを過ぎてしばらく経つが、動画はいまが分水嶺のように感じる
特に幼い子どもは、何が本物で何がそうでないかについての直感が弱い。動画の中の人が本物かと聞かれれば、まだかなり自信を持って答えるが、日ごとにその自信は減っている
技術は明らかに準備ができており、まだ大半の動画コンテンツが影響を受けているわけではないが、まもなく変わると思う
- こういうチャレンジ問題がある: https://www.nytimes.com/interactive/2024/09/09/technology/ai-video-deepfake-runway-kling-quiz.html
  https://www.nytimes.com/interactive/2024/01/19/technology/artificial-intelligence-image-generators-faces-quiz.html
  厳選された例を比較しているという点で少し不公平だが、専門家でもこうしたテストを数多く突破するのは難しいだろう。技術は前に進むだけで、その速度も速くなっているようだ
  驚くべきなのは進歩の速度だ。人類はほぼ300万年、ホモ・サピエンスは約30万年、都市・農業・文明は約1万年、金属は約4000年、産業革命は500年、民主主義は200年、コンピューティングは50〜100年ほどだ
  革命の間隔がほとんど指数関数的に短くなっている
  今日の世界を子どものころと比べてみると、まだ受け入れつつある革命の1つが自動化製造だ。AliExpressに行くと、あまりにも多くのものが事実上タダだ。5ポート120W充電器を自分の時間2分にも満たない値段で買えたし、お金を稼ぐ時間より探す時間のほうが短かった
  これらすべてがどこへ向かうのかはよく分からない
- いまでは本物の人間を識別できるという自信がない
  実在の人でも、TikTok、Instagram、YouTubeクリエイターの行動様式を取り入れている場合、しばしば「偽物っぽい」と判定してしまう
  私のひげにも白いものが混じっているが、2020年の発表動画ですでにYouTubeサムネ顔をからかっていた。AIはこうした「半ば人間的な」行動パターンを非常に速く、強く捉える
  若い女性が2人ずつ出てきて「This is real」/「This is not real」のプラカードを掲げる動画が出回っていたが、どちらも完全に嘘かもしれないし、私には見分けがつかない。全員が少し「奇妙な」行動パターンを見せるが、私が目にした少数のインフルエンサー動画とは一貫している
- ひどい生成物は見分けられるが、出来の良いものにだまされていないとどうやって分かるのか
- その考えはしたことがなかった。人間がAIコンテンツと現実を区別する能力を失うとしたら恐ろしい
「いまやウェブ全体は大規模言語モデルが作ったスロップであふれていて、誰も書いておらず、何も伝えていない」という言葉は、公正で正確だと思う
最善の場合でさえ、モデルを動かした人がその文章を書いたわけではなく、単語のサラダはその人が言おうとしていたことを伝えられていない
多くの場合、誰かにとって価値があるものにしようという意図もなく、SEOのためにコンテンツがただ大量に吐き出されている
- その一文は自分にも強く刺さったし、とても力があった
もしかすると、2020年以前の紙の本は、10〜20年後には貴重な商品になるかもしれない
インターネットがスロップで埋め尽くされ、当時の紙の本でさえ疑われるようになる頃の話だ
そして、非常に賢いAIが書いた本の著者を装う人間のトーキングヘッドも出てくるだろう。いったい私たちは何をしているのだろうか
- Sam AltmanやMark Zuckerbergのような有名な「慈善家」たちを持ち上げるためだろう。ここでは彼らを英雄視する人も多いから
- 本を大量に集めてほとんど読まないのは何かの精神疾患だと思っていたが、これからはもっとやるべきだな
- あるいは、AIが書いた本の著者を装うAIのトーキングヘッドかもしれない https://youtu.be/pAPGRGTqIgI
  警告: 国家支援の偽情報AI
この問題については感情が非常に複雑だ
一方ではRobyn Speerに完全に同意する。オープンなウェブは死んだし、ウェブは本当に悲しい状態にある。数日前には個人ブログをgopherに置くことにした。単にgopherにはゴミがずっと少ないからで、もちろんgopherが答えだという意味ではない
ところが数週間前、97歳で別の国に住んでいて、コンピューターも携帯電話も使わない妻の祖父に動画ファイルを送る必要があった。最終的にDVDプレーヤーを持っていることが分かり、最新の4K HDR動画を、どんな古いDVDプレーヤーでも再生できる形式に変換しつつ、できるだけ画質を保つためにx264を使った
問題はx264にドキュメントがないことだ。きちんとしたドキュメントを書く資金を出す企業スポンサーがいたx265と違い、x264はdoom9フォーラムのメンバーたちが試行錯誤で開発したようなものだった。難解なフラグが何百もあり、その一部は20年前とは違う動きをする
doom9の20年前のスレッドを何十本も掘り返して各フラグが何をするのか調べることもできたが、実際にはLLM、この場合はClaudeに聞いた
Claudeは完璧ではなく、ffmpegのフラグをいくつかx264のフラグと混同していたが、従来型の検索と試行錯誤を組み合わせることで、約30分で作業を終えられた。成果物の品質にもかなり満足できたし、非常に古いDVDプレーヤーでも再生できた
LLM以前なら、このためにx264の専門家を雇うことはなかっただろう。さらに数時間を費やすか、もっと可能性が高いのは、その97歳の老人がひ孫娘の踊りを見られなかったということだ。その動画は彼に大きな笑顔をもたらしたそうだ
LLMも、これまでのあらゆるものと同じく単なる道具にすぎない。本質的に善でも悪でもない。私たちが何をし、どう使うかが重要だ
- 昔のDVD作成ソフトの多くには、動画変換が標準機能として入っていなかったか？
  当時ならNero Burning ROMかHandbrakeを使っていただろう。品質は望む水準まで最適化されなかったかもしれないが、97歳の目には十分見られる映像になったはずだ
人間である私たちがAIでインターネットを汚染しすぎて、もはやほとんど使えないものにしてしまったのだろうか？
私の考えでは、インターネットは地球のような自然環境に相当すると見なせる。人々が共有し、出会い、会話する空間だからだ
自然環境を汚染したうえに、今度はインターネットまで汚染したというのは驚きだ
- まだそうでないとしても、ごく近いうちにそうなるだろう。この問題に取り組んでいる人たちもいるだろうが、いまや非常に差し迫ったフィードバックループの瞬間に到達しつつあると思う
  人間が記録した情報の大半はデジタル化され、その多くがものすごい速度で非人間コンテンツを生成している。私たちが使えるデータに膨大なノイズを注入しているわけだ
  答えがより多くの人間コンテンツなのか、新しい生成コンテンツなのかは分からないが、この過渡期は中期的に課題を生むだろう
  LLMではトークンが多いほどよいという時代は終わり、既存データをよりうまく使う方向に向かうのだと思いたいが、実際には重要な転換点の前に立っている
- 依然として非常に価値のある、小さく閉じたコミュニティはある。いま投稿している場所もその一つだ
  しかしオープンなインターネットは基本的にもはや役に立たなくなっており、根本原因は広告ベースのビジネスモデルだ
- コモンズの悲劇は、周囲のあらゆるものを台無しにする
- その通り。インターネットをさらに大きな汚物だめにする実用的な指針もここにある https://www.youtube.com/watch?v=endHz0jo9Ck
  もはや、どんな新技術もSEO増幅につながるというのは自然法則のように見える。AIはインターネットのDegelman M34 Manure Spreaderになった https://degelman.com/products/manure-spreaders
- 良い比喩だ。幸いオンラインでは、無から「不動産」を作るのはもっと簡単だ。ただしTwitterやRedditのような価値ある空間の一部は、ある程度失われてしまった
まもなく仕事を失う、あるいはすでに失っていて、以前の仕事では事実上雇われにくい作家たちに、AIの超大手事業者がお金を払って何でも書かせるべき
条件はただ一つ、その成果物の文章のうち一文たりともAIで作られていてはならないということ
最初は「政府が金を出すべきだ」と言おうとしたが、それは損失の社会化であり、すでに過去に十分経験してきた
- すでにそういうことをしている会社はいくつかある。私も何社かで時々契約の仕事をしていて、報酬が平均的な作家がほかで期待できる水準を大きく上回ることもある
  ただし、大多数の作家は文章を書くことで生計を立てたことがない。書くことの敷居はあまりにも低く、書くことが好きな人はあまりにも多く、たいていの人はほとんど読まない
- 誰がテープをプログラムするのか？ https://en.wikipedia.org/wiki/Profession_(novella)
- AI企業は実際に、そうした人々を雇ってカスタムの学習データを作っている
- 人々はすでに10年以上、ノイズを作ってお金を受け取ってきた。ゴミを入れればゴミが出てくる、というのは常に真実
  次のトークンを見つけることは解決済みの問題だ。新しい思考は人間が解決でき、まもなくAIにも可能になるかもしれないが、データにさらにゴミを追加しても良くはならない
- アメリカ史を読んだことあるのか、笑

wordfreqが更新を停止した理由

2024年9月の補足

2021年までの言語使用のスナップショット

生成AIに汚染された公開Web

失われた、または高額になった口語データ

TwitterとX

Reddit

生成AIと距離を置きたい理由

更新停止の結論

関連記事

1件のコメント

Hacker News の意見