Stack Overflowのフォーラムは死んだが、会社はなお持ちこたえている
(sherwood.news)- Stack Overflowは開発者Q&Aの代表的な場だったが、ChatGPT、Cursor、Claudeのようなコード作成AIアシスタントの普及後、質問数とトラフィックが急減した
- 先月の質問数は6,866件で、2008年のサービス開始初期の水準まで落ち込み、Elon Muskはこれを「LLMによる死」と呼んだ
- フォーラムへの参加は減ったが、年間売上高は約1億1,500万ドルとほぼ倍増し、損失はFY2023の8,400万ドルから2,200万ドルへ減少した
- 収益構造は広告中心から企業向けソリューションとデータライセンスへ移り、Stack Internalは世界中の25,000社で利用されている
- 開発者の質問が非公開のAIチャットへ移ることで新たな公開知識は減っているが、LLMは依然としてStack Overflowのデータを必要とするという循環構造になっている
AIアシスタントが減らしたStack Overflowのトラフィック
- Stack Overflowは長年、開発者が技術的な助けを求める代表的なQ&Aフォーラムであり、パンデミック期には長く活用される情報を探す開発者たちのおかげで、その影響力は頂点に近かった
- ChatGPT、Cursor、Claude、Google Gemini、Microsoft Copilotのようなコード作成AIアシスタントが広がるにつれ、サイトトラフィックは急減した
- 2023年7月、Elon MuskはStack Overflowの状況を「LLMによる死」と呼んだ
- 先月Stack Overflowに投稿された質問数は6,866件で、これは2008年のサービス開始初期に一般的だった規模とほぼ同じ水準である
フォーラムは縮小したが、会社の売上は持ちこたえた
- Stack OverflowのQ&Aフォーラムは弱体化したが、会社は膨大な過去コンテンツを収益化することで持ちこたえている
- ChatGPTが2022年に登場して以降、参加度は急落したが、Stack Overflowの年間売上高は約1億1,500万ドルへとほぼ倍増した
- 損失はFY2023の8,400万ドルから、直近会計年度では2,200万ドルへと縮小した
- 大規模なレイオフのような強いコスト削減も、収益性の改善に寄与した
- Cheggのような知識ハブが生成AIの打撃を受けたのとは異なり、Stack Overflowは過去コンテンツの価値を新たな収益源へとつなげた
広告から企業向けソリューションとデータライセンスへ移行
- かつてのStack Overflowは活発なフォーラムの広告に依存していたが、現在の主要な収益源は企業向けソリューションへと変わっている
- 「Stack Internal」は、長年にわたって蓄積された数百万件の質問と回答を基盤にした生成AIの追加機能を提供する
- Stack Internalは世界中の25,000社で利用されている
- Stack OverflowはRedditと似た形で、AI企業にデータライセンスも販売している
- Redditはユーザー生成コンテンツのライセンスによって、2024年に2億ドル超を稼いだプラットフォームとして提示されている
古いコミュニティが生んだ信頼の価値
- Stack Overflowの新たなニッチ市場は、過去のコミュニティと専門性が生んだ信頼にある
- CEOのPrashanth Chandrasekarは、2023年初めの質問減少の大半はごく単純な質問で起きており、複雑な質問は依然としてStack Overflowに投稿されていると見ている
- Chandrasekarは、LLMの性能が人間に選別されたデータの質に左右されるなら、Stack Overflowは技術分野で最良の場所のひとつ、あるいは最高の場所になり得ると考えている
- 大規模言語モデルはコーディングの問題と解決方法に関するデータを求めており、Stack Overflowはそのようなデータを蓄えた大きなデジタル倉庫を保有している
循環構造になったAIと開発者知識
- Stack OverflowのデータはLLMにとって重要だが、開発者の質問がLLMとの非公開チャットウィンドウへ移るにつれて、新たに蓄積される公開のQ&Aは減っている
- LLMは動作するために巨大なデータを必要とし、Stack Overflowのデータはその需要を満たせる資産である
- 同時に、Stack Overflowのデータはますます古い資産になりつつある
- Stack Overflowは、AIが公開の開発者知識共有を弱めつつも、その公開知識を再び必要とするという技術産業の循環的変化を示している
1件のコメント
Hacker Newsの意見
むしろなくなってよかったとすら思う
私もほかの人たちと同じようによく使って何度も助けられたが、文化的な問題が深刻になり、それが解消されることはなかった
ゲーミフィケーションが、ルールに執着する硬直した気質の人たちを引き寄せ、彼らは他人を傷つけていても自覚していなかったように思う
良い質問と役に立つ回答を求める意図は理解できるが、「間違った」質問をしたという理由で人をぞんざいに扱うことは正当化できない。そこで見た傲慢さと冷笑的な黙殺は見ていてつらかった
終了: 2011年8月の「Django 1.3でどこか似たようなことをどうやるんですか?」という1234番の質問と重複
あのサイトのモデレーターたちは、やり取りの楽しさを完全に奪ってしまった。モデレーターのいるサイトを運営するなら、彼らがそのサイトをStack Overflowのようにしないよう、必ず統制すべきだ
「New」キューでよく回答していた立場からすると、ルール違反、低努力の質問、明らかな重複の量は驚くほどだった
結局、質問の99%はやり取りする価値がなく、回答するのをやめて、ただクローズ投票して先へ進むようになった
結局SOは有名になりすぎて、モデレーションが手に負えなくなって死んだのだと思う
以前はCUDAという新興技術があり、科学計算や並列計算に興味深い可能性を開いていて、Stack OverflowにはCUDAの使い方に関する興味深い質問がたくさんあった。だから回答を始め、ほぼ700件の質問に答えてCUDAタグで最高評判の参加者になり、かなり楽しかったという内容だった
だがCUDAが成熟するにつれ、良い質問の大半はすでに問われて答えられており、今Stack Overflowに投稿されるものの大半は残りかすなので、回答よりも編集、ダウンボート、クローズに時間を使うという内容もあった
結果として、ほとんどのCUDAの質問はダウンボートされて削除された。奇妙なことに、CUDAは進化し続けていたのにそうだった
人生で困難を抱え、オンラインで助けを探している状況なら、本当にやる気をくじく体験だ
今では質問を閉じるだけでなく、その中に有用な情報があっても丸ごと削除してしまう
以前、クローズされた質問に戻ってコメントに誰かが残したリンクを探そうとしたら、実際に中身があったのに、あるモデレーターが理由もなく質問を削除してしまっているのを見た
そのとき完全にうんざりして、自分のドメインと自分のWebサイトに専念するようになり、今後また何か投稿するとしても、必ず自分のサイトへのリンクという形でしか載せないつもりだ。彼らの削除主義が届かないようにするためだ
Stack Overflowは、プログラミングに関する人類の知識の保管庫としては最高かもしれない
だが有用性は蓄積された知識に限られると思う。サービスやコミュニティとしては、かなり前から相当ひどかった
プログラミングを学ぼうとする新規ユーザーにとって、最も有害な資源のひとつだったのかもしれない。2019年以降、質問を投稿したことはほとんどない
平均的なユーザーが期待できるのは、投稿をろくに読んでもいない人からの刺々しい返答か、満足のいく答えがあるかどうかに関係なく、似て見える質問があるという理由でモデレーターに削除されることだけだった
ある時点に来ると、意味のある質問はすでに出尽くしている。あのサイトは既存の問題の変形を助ける場所ではなく、新しい問題を収集する場として存在するようになっていた
さらに、業界がいくつかのフレームワークへ均質化された影響も過小評価されている。Stack Overflowの頂点がReactの台頭期と重なっているのは示唆的だ
後には整然さに最適化することでサイトを壊し、その過程でとくに新規ユーザーを苦しめて追い払った
math SEやstats SEに数学・統計に関する簡単な質問を投稿していたが、数時間以内、ときには数分以内に正確な答えが得られた
そして親切さを維持し報いる仕組みがなかった
Jeff Atwoodはその後Discourseを作る際にこの点をかなり考え、コミュニティのメンバー同士がよい態度で接するよう促そうとしていた
筆者はグラフにCOVIDとChatGPTのリリースを示していたが、Stack Overflowが2021年6月にオランダのプライベート・エクイティProsusに買収されたことには触れていなかった
私には、その時点が全体の下降トレンドとかなりよく一致しているように見える
売却それ自体は原因というより症状に近い
彼らは「買収された」というより、押しつけられた側に近く見える
その期間、StackOverflow自体はあまり変わっておらず、ユーザーの変化は外的要因によるものだったはずだ
Stack Overflowには欠点が多かったが、最盛期にはインターネットの驚異的な存在だった
とくに初期には、人々はカルマを追い求めていて、何を尋ねても何らかの答えを得ることができた。いつも正しいとは限らなくても、答えはあった
LLMが平均的にははるかに良い答えを返せるとしても、そこで失われた人間的な断片はきちんと記憶し、大切にすべきだと感じる
皮肉なことに、StackOverflowはそうしたフォーラムをほぼ壊滅させ、結局は自分自身も次の波の犠牲になった
これは心配すべきことではないかと思う
人々はStack Overflowを使う中で、その過程で新しい知識を生み出していた
そうした議論の場がなければ、最新で高品質な知識をどうやってモデルに食べさせられるのだろうか
LLMが多くの調査を経て見つけた問題解決策を投稿するようなものだ
残念ながらLLMはOpenAI、Anthropic、Googleのようないくつかの提供者に集中しているので、それぞれが私的で閉じたStack Overflowを作る可能性がある
その私的なStack Overflowを活用すれば、それぞれのLLMは複雑な推論を迂回してトークン、時間、コストを節約できる
たとえば、あるライブラリに一般的な回避策が必要なバグがあるなら、その回避策を使っているオープンソースコードから学べる
強化学習環境、合成データ、人手で注釈されたデータがあり、codex/claude code/cursorの利用データもある
コーディングにおけるモデル能力の大半は事前学習ではなく事後学習から来る
LLMは、LLMがなかった時代のユーザー生成コンテンツを「盗んで」利益を得たとも言える
LLM時代には、今後LLMを学習させるための新しいStack Overflowは生まれないだろう
Twitterの多くのアカウントは、事実上LLMであるというデッドインターネット理論に近づいている。Redditも大きな問題になりそうだ。カルマ稼ぎをしたり、影響工作キャンペーンに参加したり、広告収入を狙ったりするアカウントが多いだろうから
結局、LLMを学習させるコーパス自体がLLMのかすで埋め尽くされる地点に達するだろう。自己強化型のかすが未来なのかもしれない
問題は、SOが自らを窒息させたこと以上に、主要な検索エンジンでさえ小さなブログを見せるよりAI回答へと舵を切っていることだ
質問作成の要件が厳しいと、問題を明確に定義する助けになり、質問をきちんと書き終えると解答にたどり着くことがよくあった
だがここ数年は、そこに質問を投稿すること自体がトラウマに近い経験になっていた。完全に正当な質問を投稿しても反対票やクローズを受ける可能性が高く、質問に少しでも問題があればさらにひどかった
「質問を投稿したら自分で答えられるようになり、誰かがコメントでそう言ってくれた」から、「どんな質問でも投稿するとサイト全体が群がってその質問を消そうとする」へと完全に変わってしまった
奇妙に聞こえるかもしれないが、時にはClaude Codeがこだわるやり方よりStack Overflowでより良い解決策を見つけることがある
長期的にSOのない世界のほうが良いのかはよく分からない
LLMは、問題に対する最良の解法よりも、よく知られた解法を吐き出すのが得意だ
LLMの確率分布からトークンをサンプリングする方式のため、解法のロングテールはたいてい消えてしまう
役に立った方法は、ある問題についてたとえば10通りの異なる解法を求め、その中から1つを選ぶことだ。互いに異なる解法が10個もない場合には、かなり創造的な解法が出てくることもある
ときには「最良」の解法が読みにくいコードであり、人々がいろいろなやり方で解いて怒ったサルのように議論しているのを見ると、問題をよりよく理解できた
もちろん、本当にひどいときもあった
ただ、そのサイトの文化はかなり前からきしんでいた
SOの一部であるServerFaultで質問と回答の編集に多くの労力を注いだが、今ではその時間は無駄だったと感じる
彼らはしばらく前からサイトを売りたがっていて、もう気にしていなかったように思う。何人かの編集者があまりにも長く意地悪に振る舞うのを許し、それで増長してしまった。あの努力を取り戻せたらいいのにと思う
インターネットの残りは、Jon Skeetが制約した最終潜在空間を希釈するものに近い、という冗談も言える
Stack OverflowがAIのせいで苦戦するだろうとは分かっていたが、月間質問数がチャットボット以前の20万件からおよそ1千件に落ちたというのは信じがたい
もちろん私も、この4年間はまったく行っていない
https://data.stackexchange.com/stackoverflow/revision/193252...
いまやStack Overflowを使う理由は文字どおりない。LLMには欠点があるにしても、コーディング問題の答えを得る方法としてははるかに優れている
「この投稿には感謝するが、ここでは語の選び方が悪く、同じ語を一部含む別の回答が13件あるが実際の質問には答えていないため削除されました。しかもこの投稿が残っていると私の的外れな回答の閲覧数が減ります」といった感じだった
そのフォーラムが死んだ理由は1つではない
厳格なモデレーションは好き嫌いは別としてプラットフォームの一部であり、LLMがコーディングQ&Aフォーラムの必要性を99.9%なくしていなければ、そのやり方でももっと長く続いていたかもしれない
そのため「正準」回答が必要で、これが長期的にはサイトを殺した
短期的には非常にうまく機能し、創業者たちは当然大金を稼いだ
ただ、1年ほど前に質問をいくつか投稿したが、まったく反応がなかった
SOを去ったのは質問する人だけでなく、答える人も同じだ。鶏と卵、つまりネットワーク効果の逆回転の問題かもしれない
LLMは、デバッグやヘルプデスク的な作業では遅い人間のサポートより優れており、そもそもそうした質問はSOでも歓迎されていなかった
Stack Overflowは今でも、正規の質問、複数の回答、公開され検索最適化された人間同士の議論には素晴らしい
しかし、18億ドルの投資を100倍にしようとする会社としては、それだけでは十分ではないだろう
いつか古典的なQ&Aサイトが損失処理され、本来のQ&Aサイトを保存することに関心があり、成長や変身を望まないWikimediaのような財団へ分離されるとよいと思う
Wikimediaのような財団が本来の目的を守る最善の方法だという点に同意する