大規模言語モデルはデジタル公共財への脅威になりうるのか？

kuroneko · 2023-07-18T15:33:20+09:00

ChatGPT以後のStack Overflowの活動を通じて、LLMがWebコンテンツに及ぼす影響を分析した内容。 Stack Overflowでは、ChatGPT以後に活動が16%〜25%減少した。よく使われる有名な言語ほど減少幅が大きい。 ChatGPTがブロックされている中国・ロシアのサイトや、AIが代替しにくい数学関連サイトと比較した数値。投稿に対する投票数は変わっておらず、回答の質が向上したとは言えない。 ChatGPT以後、人間が生成するデータが減っていることを意味する。これにより、さまざまな問題が発生しうる。インターネット全体の資料の量と質が低下し、AI学習データの効率も低下する可能性がある。 ChatGPTのデータはOpenAIが独占的に所有しているため、企業間の技術格差がさらに広がる可能性がある。人間の探究の範囲を狭め、AIが学習していない新しい製品や言語の発展が低下する可能性がある。 LLMの恩恵を受けにくい国の間や、所得の違いなど、階層間の格差がさらに拡大する可能性がある。持続可能なWebとAIのエコシステムのために考えるべき問題。

(arxiv.org)

11 ポイント投稿者 kuroneko 2023-07-18 | 5件のコメント | WhatsAppで共有

ChatGPT以後のStack Overflowの活動を通じて、LLMがWebコンテンツに及ぼす影響を分析した内容。
Stack Overflowでは、ChatGPT以後に活動が16%〜25%減少した。
- よく使われる有名な言語ほど減少幅が大きい。
- ChatGPTがブロックされている中国・ロシアのサイトや、AIが代替しにくい数学関連サイトと比較した数値。
投稿に対する投票数は変わっておらず、回答の質が向上したとは言えない。
ChatGPT以後、人間が生成するデータが減っていることを意味する。
これにより、さまざまな問題が発生しうる。
- インターネット全体の資料の量と質が低下し、AI学習データの効率も低下する可能性がある。
- ChatGPTのデータはOpenAIが独占的に所有しているため、企業間の技術格差がさらに広がる可能性がある。
- 人間の探究の範囲を狭め、AIが学習していない新しい製品や言語の発展が低下する可能性がある。
- LLMの恩恵を受けにくい国の間や、所得の違いなど、階層間の格差がさらに拡大する可能性がある。
持続可能なWebとAIのエコシステムのために考えるべき問題。

5件のコメント

soupdog 2023-07-25

言語モデルがStack Overflowが担っていたコミュニケーションを代替するようになり、人と人がやり取りしながらインターネット上で共有される知識は徐々に減ってきているように思います。教会と市場のメタファーを借りるなら、正確な意味で誰かに独占された教会になっているようです。

laeyoung 2023-07-19

心配ではありますが、個人的に経験した最大の問題は、経済学でいう「悪貨が良貨を駆逐する」が起きていることです。

ChatGPTが登場する前は、Google広告の承認を受けるには、昨年末時点でブログに8本ほど記事を書けばよかったのですが、今はその2倍書いても、コンテンツ不足あるいは無効なコンテンツとして承認されません。すべて手書きした記事なのにです。

AIで自動生成されたブログが増えたことで、AdSenseの承認基準は上がり、その終わりがどこなのかもわかりません。そのせいで、3か月近く映画レビューを書いていたブログでAdSenseの承認を取るのは、もう諦めた状態です。

審査する側からすると、これが良貨なのか（人が書いたコンテンツなのか）、悪貨なのか（AIで作ったもの、あるいはAIで作って手を入れたものなのか）を区別できないので、基準を引き上げる方向に進むのでしょう。結局のところ、今年の初めに見たような、自動生成されたWebページばかりがGoogle検索結果の上位に表示される、そんな状況になるのではないかと思います。

cosine20 2023-07-19

私はむしろ前向きに見ています。
従来の情報検索の方法では、「検索エンジンに適切な検索語を入力する能力」と「検索結果の中から自分の欲しかった結果を選び出す能力」の二つが必要でした。ここで生じる疲労感はかなり大きいものでした。
単純な処理をするコードを探したいだけなのに、検索結果に出てくる StackOverflow の投稿をたどってみると3〜4個の回答コードがあり、そのうちあるものは古い言語仕様だから複雑だとして downvote されていて、あるものは採用されてはいるものの、バージョンアップによってもはや正しく動かなくなり、コメント欄で人々が熱心に不便さを訴えつつ、お互いに解決法を探していたりします。こうしたことは思ったよりもしばしばありました。

結局、大きな文脈で見れば、情報化時代以降「情報の洪水の中から自分が本当に求める情報を選び出す能力」が必要であること自体は変わっていませんが、自分に与えられる選択肢が増えすぎて、判断すること自体が面倒で疲れるようになっているのだと思います。

そういう点で、よく訓練された大規模言語モデルは、人々がよく探すごく trivial な情報から、ある程度高次の情報までを合理的な UX で提供できるため、むしろある程度の分業化が可能だと思います。
LLM では適切な回答を得にくいごく最新の情報や、さまざまな文脈が複雑に絡み合っている質問のようなものを、StackOverflow のような質疑応答サービスが担うことになるのです。

ただし、LLM がそれだけ正確な情報を明確な根拠に基づいて選別し、大衆に提供できるのかという点は、なお課題として残っていると思います.

kuroneko 2023-07-18

HNスレッド

もちろん一部のサイトだけを調べた、やや限定的な研究なので、偏りが大きい可能性はありますが、
結局のところ、さまざまな面で技術格差が広がりうるという点は危険だと感じますね。

コメントの中に「AIは、人々が作成したコンテンツの価値が生み出すお金をAI企業へ振り向け、富の集中を引き起こす」という言葉がありましたが、
これは共感できますね.

jujumilk3 2023-07-18

えっ、絵文字が付かないんですね。共感します

大規模言語モデルはデジタル公共財への脅威になりうるのか？

関連記事

5件のコメント