大規模言語モデル、オンラインQ&Aプラットフォームで公共知識共有を減少させる

(academic.oup.com)

2 ポイント投稿者 GN⁺ 2024-10-14 | 1件のコメント | WhatsAppで共有

要約

大規模言語モデル（LLM）の影響
大規模言語モデル（LLM）は、人間が生成したデータや知識資源を代替し得る可能性を持つ。しかし、この代替は将来のモデル開発に必要な訓練データの減少につながるという問題を提起する。本研究では、ChatGPTの公開とともにStack Overflowの活動が減少したことを記録している。
ChatGPTの影響
ChatGPTの公開後6か月以内に、Stack Overflowの活動はロシアおよび中国の類似プラットフォームや数学フォーラムと比べて25%減少した。これは、ChatGPTがStack Overflowに及ぼす真の影響の下限として解釈される。最も広く使われているプログラミング言語に関連する投稿で、減少幅がより大きい。
LLMの代替効果
LLMは、重複したり低品質だったりするコンテンツだけでなく、高品質なコンテンツも代替している。ChatGPTの利用者はStack Overflowに投稿する可能性が低く、プラットフォームを定期的に訪問しなくなっている。これは、LLMの急速な採用が訓練に必要な公共データの生産を減少させ、重大な結果をもたらす可能性があることを示唆している。
プログラミング言語別の影響
PythonやJavaScriptのような広く使われる言語で、ChatGPTの影響がより大きい。CUDAのような特定の言語では、ChatGPT公開後に投稿が増加した。これは、AI関連ソフトウェアへの関心が高まっていることを示している。

GN⁺のまとめ

この研究は、ChatGPTのような大規模言語モデルがオンラインQ&Aプラットフォームに及ぼす影響を分析することで、AIの急速な採用が公共データの生産に与える負の影響を強調している。
ChatGPTの利用が増加するにつれて、Stack Overflowのようなプラットフォームの活動は減少し、これは将来のAIモデルの訓練データの品質に影響を与える可能性がある。
こうした変化は、デジタル経済と情報アクセスのあり方に重要な影響を及ぼす可能性があり、AIエコシステムの持続可能性に対する懸念を提起している。
類似の機能を持つ他のプロジェクトとしては、GitHubのプログラミング言語関連リポジトリがある。

1件のコメント

GN⁺ 2024-10-14

Hacker Newsのコメント

結局のところ問題は、LLMが何を根拠にするのかという点にある。新しい情報を生み出すのではなく、既存の情報を繰り返し、組み合わせる方式なので、公開サンプルやStack Overflow/Redditの回答が十分でないコードでは性能が大きく落ちる
- 参考までに、GPT o1は、ドキュメントが不透明で公開例が少ないオープンソースライブラリであるepub.jsのかなり複雑なユースケースを解決するのを助けてくれた
  動く解法にたどり着くまで何度かやり取りする必要はあったが、最終的にはできた。AIがインターネット上の目立たない資料をうまく見つけて消化したのか、それとも難解なドキュメントを自分よりよく理解したのか気になった。後者なら、公開サンプルの必要性は下がるかもしれない
- LLMが知らないせいで、人々がやみくもに新しいプログラミング言語やフレームワークを作り出すことが減る、という興味深い副作用が生じるかもしれない
  すでにLLMが得意な技術のほうに傾きつつある。少しだけ優れた言語やフレームワークの利点よりも、LLMに問題の90%を解かせられる利点のほうが大きい。Pythonという言語はかなり嫌いだが、LLMが他の多くの言語よりPythonではるかにうまくやることは否定しにくい
- 「新しい情報を作らない」という言い方とは異なり、オンラインQ&Aプラットフォームにおける知識共有の大半は創造的な活動ではない。システム開発者本人を除けば、誰もが遭遇する同じ問題を延々と質問しているのに近く、かなりの部分は検索プラットフォームの代替である
- LLMが根拠にできるのは公式ドキュメントである
  数字はでっち上げだが擁護はできる。Stack Overflowの情報の90%は、どこかのマニュアルにある内容の繰り返しだ。問題は、関連ドキュメントの中で欲しい情報を見つけにくく、見つけても読みにくいことが多い点だが、LLMはドキュメントを読み理解するのが非常に得意だ
- LLMは古いやり方と新しいやり方を雑に行き来し、LLMスパゲッティコードが大きくなるほど、既存ロジックを壊さずに精密に機能を追加できなくなる
  プロンプト1つ2つでアプリ全体を即座に作る技術デモは粗い。何をしているのか分かっていなければ、機能を追加し続ける間にAPI呼び出しの方法、状態管理の方法、CSSライブラリをどんどん変えてしまうだろう。例えば、ネイティブのfetch関数が3つあるファイルに、突然理由もなくaxiosをインストールして使おうと言い出す
  {/* rest of your functions here*}のような部分を削除してしまうこともある
  しばらくすると、ループやswitchのような退屈な作業にしか安全に使えないので、開発者の仕事は当面安全そうに見える
論文は、LLMが公開の知識共有を減らしており、その効果は単に重複・低品質・初心者レベルのコンテンツを置き換えているだけではないと言っているが、主張は弱く、効果もタイトルほど扇情的ではない
第一に、LLMが低品質投稿を置き換えているという提案された検定について、Figure 3だけを示し、回帰結果は提示していない。一方で、ユーザーが10回投稿していれば経験者だというような恣意的なユーザー経験区分についての検定は報告している。なぜ投稿品質別の検定は省き、恣意的な「経験」バケットの結果は見せるのか疑問だ
第二に、Figure 3自体は、良い質問と中立的な質問のトレンド変化を示している。良い質問は下降傾向だったのが横ばいになり、中立的な質問は上昇傾向から横ばいになった。悪い質問は減少し続け、目立ったトレンド変化はない。これはむしろ、LLMが低品質コンテンツを置き換えているという反対の結論を示唆している
結論にはもっと強い表現が必要で、研究は丁寧だが驚きのない結果には十分に報いない。だから扇情的なタイトルと、一部省略されたように見える結果が出てきたように感じる
- この記事が正確に扱っている内容ではないが、以前HNで誰かが似た現象をうまく表現していた。インターネットがバルカン化している。新しい概念ではないが、オンラインコミュニティに焦点を当てると特によく当てはまる
  人々は昔のように公開フォーラムで情報を自由に共有せず、Discordのようなサービスに退いて堀を掘り、跳ね橋を上げている。非難するのも難しい。多くのフォーラムやソーシャルメディアは、ますます敵対的な設計と収益化を導入し、AI/LLMはあちこちをクロールしてすべてを吸い上げたうえで有料壁の向こうに置き、元の出典が検索で見つかる可能性を台無しにする。エンゲージメントを促すアルゴリズムは罵倒と論争を育てる。最近のHNは珍しい例外だ
  結局、特定の関心や知識を持つ人々が私的なコミュニティに集まって内輪だけで話し、新しく入ろうとする人たちにとってはより難しい環境になる
- LLMがコーダーを十分にうまく助け、人々がStack Overflowで過ごす時間を減らし、その代わりにより多くのオープンソースコードを押し上げるなら、そのほうが全員にとって価値があるかもしれない
人々がStack Overflowへの無料貢献を減らすのは当然だ。Stack OverflowはOpenAI API契約と数多くの「AI」誇大ブログ記事で貢献者たちを売り渡している
- それが主な理由ではないと思う。人々は、自分がプラットフォーム上で作ったものを誰かが売ってもあまり気にしない。Facebookのような大手ソーシャルメディアは何年もそうしてきたが、今も使われている。Stack Overflowには答えを得るために来るのであって、後で誰かがその答えでLLMを学習させるからといって、なぜ気にするだろうか
- これは回答の減少というより、質問の減少に近く見える
- 分析期間は2023年5月までなので、OpenAI契約より1年前だ。その契約は論文の結果とは無関係である
- すでに2014年ごろから続いている長期トレンドに上乗せされたものだ。質問の品質と性質、つまりサイトのガイドラインに従わず、サイトがどう機能すべきかを理解しようとする努力も足りない質問への不満が高まり続けてきた
個人的には、オープンソースプロジェクト関連の質問のかなりの部分はGitHubとDiscordに移っており、LLM以外にもプラットフォーム移動がある
より一般的なプログラミング問題はGeminiから始めることが多い。自分の問題の用語でそのまま答えてくれるので、複数ページを回って組み立てなくても済むことが多いし、間違っていても検索を始めるためのより良い手がかりをくれることが多い。タイトルは似ているが内容に重要な違いがあるStack Overflowの投稿を何度もクリックする時間を節約してくれる
- 2022年: Discordは検索エンジンにインデックスされないので良くない
  2024年: DiscordはAIのゴミ生成機にインデックスされないので良い
- オープンソースプロジェクトの質問がGitHubとDiscordに移っていったのは、まったく同じ体験だ。さらにメンテナーと直接話せるので良かった
複数の技術系 subreddit を購読しているが、この2年間、同じ質問が複数の subreddit にばらまかれるのをよく見かけるようになった。アカウントが新規作成されたばかりだったり、すべての返信が自動生成のように見える典型的な一行レスだったりする。
AI 学習用の bot アカウントだと見なしていて、長い技術的説明を書く前に、まず実際の人間が質問しているのか確認してからでないと答えない。
- いずれにせよ、学習には役立っている。
  結局、WWW を通じた「贈与文化」、「知識は自由であるべきだ」、F/OSS などの成功は、Stallman 的なハッカー倫理全体を悪く見せることになりそうだ。
  私たちは皆 IBM^H^H^HOpenAI のために働いているが、今や私たちを支える GPL のようなものはない。
既視感があるなら、この話はすでに2023年7月に批判者たちが “Are Large Language Models a Threat to Digital Public Goods? Evidence from Activity on Stack Overflow” として大きく取り上げていたものだ: https://arxiv.org/abs/2307.07367
HN でも取り上げられていた: https://news.ycombinator.com/item?id=36763718
- これに関する Stack Overflow 自身の meta 議論も読む価値がある: https://meta.stackoverflow.com/questions/425651
  関連して https://meta.stackoverflow.com/questions/425635 と https://meta.stackoverflow.com/questions/422392 もある。
結局、大規模言語モデルはオープンソースの終焉になるだろう。受け入れればいい。
大規模言語モデルは知的財産を集約し、補間するために使われる。この過程では、著作者や系譜への承認も、出典表示や引用もない。事実上、モデル学習に使われた知的財産は匿名の共有財産になる。
オープンソース作業の動機になりがちな社会的報酬、たとえばクレジットや尊重が弱まる。そうやって終わるだろう。
- なぜ LLM でもっと多くのオープンソースを書かないのか？
  貢献コストは劇的に下がる。たとえば100ドルなら GPT-3.5 のトークン2億個で、2万行のプロジェクトの各行を開発するのに1万トークンずつ使える計算になる。
  1回の寄付と、午後の半日ほどワークフロー・フレームワークを管理すれば可能な中規模プロジェクトだ。
- この見方は理解できない。
  LLM がオープンソースの終焉だというなら、その理由は述べられている通り、知的財産を集約・補間し、著作者・系譜・出典表示なしに、学習された知的財産を匿名の共有財産にしてしまうから、ということになるだろう。
  しかしこれが事実で、今後も許容されるなら、著作権に依存するすべての知的財産が同じように脅かされる。オープンソースだけに固有の問題ではない。非オープンソースの著作物は「ソース」やそれに相当するものを秘密にしておけば守られるという意味なら、誰にも見せられないブロックバスター映画や、誰にも読ませてはいけない小説でどうやって稼げるのか分からない。
  クレジットと尊重だけがオープンソース作業の動機ではないし、それが最も一般的な動機なのかも疑わしい。そうした報酬は、オープンソースをソーシャルネットワーク化したりゲーミフィケーションしたりしようとする者たちが描きたがるイメージに近い。
  それらがなぜ消えなければならないのかも不明だ。カメラが発明されたからといって、肖像画家の芸術的な楽しみが消えたわけではない。純粋に金銭的な動機は打撃を受けるかもしれないが、それはオープンソースに特に固有の動機とはほど遠い。
- そうではなく、すでに十分ニッチなオープンソースをさらにニッチにするだけだ。
LLMの学習に価値が生まれた人間生成テキストのコーパスを閉鎖庭園として維持しようとするのは、負け戦だ。すでに馬は厩舎から逃げ出している可能性が高い
ただし、これは一時的な問題だと思う。LLMは過渡期の技術だ。いつかはReddit全体と、これまで書かれたすべてのものを丸ごと学習する必要はなくなるはずだ。この種の統計モデルには明らかな限界があり、人間はそのようには学ばない。一生で本を数百冊、もしかすると数千冊読んだかもしれないが、百万冊は読んでいないし、その必要もない
興味深いのは、この問題が明らかに窃盗であるにもかかわらず、データを「所有」するサイトや企業からの窃盗として扱われ、それを作ったユーザーからの窃盗として扱われていない点だ。ユーザー生成コンテンツサイトは結局、失敗する運命にある。動機がユーザーとずれており、終わりなき利益追求が必然的にユーザーを離れさせるからだ
もう1つの問題は、知的財産をどの程度消費すれば窃盗になるのかということだ。LLMがこれまで作られたすべての映画を見たなら、おそらく窃盗だろう。だが何本から多すぎるのか？『Apocalypse Now』は『Heart of Darkness』に緩やかに基づいている、あるいは着想を得ているが、人間が『Heart of Darkness』を読んだからといって「窃盗」とは言えない
よく言うように、すべての芸術は派生的だ
- 同意するが、人間の知能の働き方を特権視しすぎているのかもしれない。LLMは超人的な速度でコンテンツを吐き出す博識家だ
  詩や文学を作り、コードや物理学の回答、自動車修理の回答も同じように生成できる。今どき、そんな能力を持つ人間は非常にまれだ
  だからLLMが過渡期的だという点には同意するが、それは大脳基底核から新皮質へと続く脳の過渡性に似た意味だ。未来の汎用AIの頭脳には、LLMが他の要素とともに入る可能性が高いが、必ずしも人間の脳のように動作するよう進化するかは明らかではない
- オンラインフォーラムは、ニッチな状況や境界事例の解決策を見つけられる唯一の場所であることがある。独力では見つけるのが非常に難しかったであろうコツだ
  LLMはツールやライブラリの公式ドキュメントを学習することはできるが、技術業界ではあまりにもよくある奇妙な問題を自分で試して解決策を見つけ出すことはできない。人々がそうした解決策を互いに共有しなくなると、大きな問題になり得る
- 「人間はそのようには学ばない」という点を最近よく考える
  例えば、強化学習と生成的敵対ネットワークを使い、文書群を基にIT作業を実行させ、その作業の直接的な成功だけでなく、文脈をまったく持たない自分のコピーでもその作業をうまくこなせるようにする、新しくより精緻化された文書を作り出す能力までを適合度として測定するAIを訓練できるのだろうか、と思う
- 『Finite and Infinite Games』のような本を考えると、別の分野で読んだものだけでも、その本の知識と中心的な論旨をある程度「再構成」できると思う
  さまざまなスピリチュアル・グルが同じ内容を別の言葉で表現するのを聞くのは、万華鏡の中で同じ色のガラス片が並び替わり、新しい模様を作るのを見るのに似ている
- 半分だけ正しい。推論や本当の理解はLLMの強みではないかもしれないが、読んだすべてのものから良い情報を作り出せる点は興味深い。私はそのごく一部しか読んでいないのだから。愚かかもしれないが、記憶力は良い
  だから未来のAIも、今のChatGPTのように平均的な人々がほとんど何でも助言を求める用途で使われるなら、結局すべてを読む必要があると思う
人々は訪れない場所には投稿しない
よく知られた資料、特に人気言語についてStack Overflowを訪れない理由は、perplexity.ai、ChatGPT、ClaudeなどがStack Overflowのページを読むよりも質問にうまく答えるだけでなく、正しいかどうかにかかわらず、答えをより速くコピー＆ペーストできるようにしてくれるからだ
質問しにStack Overflowにいないなら、そこで回答もしなくなる。この観測結果を説明するのに他の理由は必要ない
もちろんこれは、Stack Overflowや他のQ&Aフォーラムが競争するには、回答の使いやすさ、つまり答えを作業フローに統合する便利さを最優先で高める必要があるということだ
- AIと競争することは、Stack Overflowコミュニティと、私が使っている別のQ&AフォーラムであるCodidactの明示的な非目標だ
  AIが「質問によりうまく答える」わけではない。質問を解釈し、回答らしい単語列と照合する中間段階を省いているだけだ。頻繁に幻覚を起こし、何をしようとしているのかの妥当性チェックは事実上しない
  Q&Aフォーラムより速度と利便性で優位にある主な理由は、質問と回答が後で他の人の役に立つかどうかをまったく気にしないからだ。検索エンジンで発見可能であること、他の人が同じ質問だと理解できること、単一の論点に集中していることといった要件を考慮しない
  そもそもそのように設計されておらず、そうする利益もない。次の人が尋ねれば、同じ回答内容を別の低品質な形でまた生成すればよい。人間の専門家と違って、AIはその作業に疲れない

大規模言語モデル、オンラインQ&Aプラットフォームで公共知識共有を減少させる

要約

GN⁺のまとめ

関連記事

1件のコメント

Hacker Newsのコメント