2 ポイント 投稿者 GN⁺ 3 일 전 | 1件のコメント | WhatsAppで共有
  • 知識労働の品質は、結果を自分でやり直してみないと確認しにくいため、実際の正確性よりも見かけ上の完成度のような代理指標に依存しがちになる
  • 日付の誤りやグラフのラベルの問題のような表面的な欠陥が見つかると、本文の結論とは無関係でも成果物全体を破棄しやすくなり、判断基準も現実の反映より安価に確認できる外形へと傾く
  • LLMは実際の作業品質を再現しなくても、それらしい文体や形式を巧みにまねできるため、レポートやコードの儀式的な手順は残っていても、その下の品質は空洞化している可能性がある
  • 測定される基準が表面的な品質であるなら、成果物の大半をLLMに書かせるほうが合理的になり、LLM自体も真実性や有用性より高品質に見える出力に合わせて最適化される
  • その結果、数十億ドル規模のシステムが実際の仕事よりも仕事の模倣に使われやすくなり、ざっと目を通してLGTMを付ける流れがGoodhart's lawを自動化した状態へとつながる

LLMが変えた構造と結果

  • LLMは実際の作業品質を再現しなくても、もっともらしい文体と形式を非常にうまくまねる
  • ChatGPTで作成した市場分析レポートは、一流コンサルティング会社の成果物のように読めて見えることがある
  • ソフトウェアエンジニアは、少し目を通しただけでは高品質に見えるコードを何千行も作れ、同僚は再びAIでコードレビューを回して問題を見つけて修正できる
  • その結果、作業の儀式的な手順は維持されても、その下にある実際の品質は空洞化している可能性がある
  • 測定される基準が表面的な品質であるなら、労働者はその基準でよく見えるように振る舞うほうが合理的であり、成果物の大半をLLMに書かせるようになる
  • LLMの学習も、答えが真実か、有用かより、学習コーパスにありそうか、あるいはRLHF評価者が満足するかに合わせられる
  • 結局、LLM自体も高品質に見える出力を作るよう最適化される
  • 数十億ドルを投じて作られたシステムが、実際の仕事よりも仕事の模倣を行うために使われるようになる
  • 企業は誰がより多くのトークンを使うかを競う状態になる
  • 労働者がLLMの出力を多く作るほど、その出力を深く検討する時間はさらに減っていく
  • 最後に残るのは、ざっと目を通してLGTMを付け、その後で次のClaude Codeセッションを開く流れだけである

1件のコメント

 
GN⁺ 3 일 전
Hacker Newsの意見
  • 記事で述べられているように、誤字脱字や些細なミスのような代理指標で人間の知識労働の質を測りやすかったという主張も、そうした手がかりがAIにはないのが問題だという主張も、どちらにも完全には同意しない
    概念的にはひどいが事実関係は合っていて、形式も整っている人間のアウトプットはもともといくらでもあった
    10年間企業顧客と仕事をしてきた感覚では、pre-LLM時代が高品質な知識労働の黄金期だったとはまったく思えず、その頃からすでに知識労働の動いているシミュラークルのようながらくたがあふれていた

    • 私にとってより大きな問題は、ミスの人間的な説明可能性が失われることにある
      人の低品質な成果物には、無知、時間的圧力、利己的な目標といった原因がたいていあり、その原因はかなり一貫している
      慎重だが分かっていないインターン、知識は豊富だが寝不足で obvious な点を見落とすシニアのように、信頼のパターンを掴める
      ところがAIは、一度に論文実装を完璧にこなしながら、同じ実行の中で新入生レベルのミスをすることもあり、極端な有能さを見せる機械を相手に完全な無能を前提にしたレビューをしなければならないという、直感に反する状況が生まれる
    • pre-LLM時代は品質の黄金期ではなかったが、LLMが、急いで作られたでたらめ仕事を見分けるもう一つの目印を消してしまったのは確かだ
    • もともとこれはポジティブ判定ではなくネガティブフィルターだった
      誤字脱字や基本的な事実誤認があれば簡単に落とせたが、そうしたものがないからといって品質が高いことにはならない
      たいていこうした検査は最初の関門にすぎず、それがすべてではないが、その関門を通れば本当の問題はむしろ見えやすくなる
      コードでも reasoning の前にlintとスタイルを先に整えるのと似ている
    • 目につくAI特有の言い回しは見抜けても、何の目印もない残り99%のAI生成テキストは見逃しかねない
      しかも本人はその99%がAI生成だと気づいていないので、自分が見抜けた100%のパターンだけを見て、AI文書は全部弾けると錯覚しやすい
    • これは本質的に重要なことではないと思う
      もともと多くの知識労働は、別の何かの代理物だった
      誤字がなく形式が整っているという品質は、アイロンのかかった白いシャツやネクタイのように、主として敬意のシグナルであり、実際には誰も深く読まない長文書も多かった
      結局それは犠牲と服従を象徴的に示す方法だったのであり、LLMはそのシグナル体系を消しつつある
      内容の質を昔からまともに見ていなかったのなら、そもそもその内容はそれほど重要ではなかったということだ
  • 学界ではすでにAIレビューコストの問題が表面化しているが、記事で述べられている理由とは少し違う
    粗雑な仕事の目印が消えることが核心というより、AIを使って作られた成果物を丹念にレビューするコストが、人間だけでは支えきれないほど大きくなっている
    たとえば経済学ジャーナルでは補遺が数百ページに及ぶこともあるが、人が読める時間には限りがある
    他分野のジャーナルでも、新規投稿数の増加だけでなく、各論文を検証するために必要なレビュー強度まで含めて圧力を受けているのか気になる

    • 公平に言えば、多くの学問分野では修士以上のレベルになると、判定そのものに高い専門性が必要になる
      その下のレベルでは、何が正しいのかと、何が正しそうに見えるのかを区別できないこともほとんどだ
  • AIを使っていると、理解を cargo-cult していると感じる
    何かを理解した表面だけを再現し、実際に理解するために必要な時間と労力を自分から奪っている

    • 一緒に働く同僚を見ていていつも思うのだが、その人はAI活用シナリオをほとんど個人用Jarvisの幻想としてしか描いていない
      ClaudeにSnowflake Cortex、統合されたコード、ドキュメント、Jiraチケットを全部食わせれば、何でも聞けてすべてがはるかに良くなると信じている
      だがその執着は大きな成果を生まず、何度かは技術の不完全さを自分で大きく味わってもいる
      みんなが agentic workflow と巨大な社内Wikiのビジョンを語る一方で、私はAIで配送速度はかなり上げつつも、大げさな冒険には時間を使わないので、継続して成果を出せている
      以前は会社のチャットボット導入を批判していた人たちが、今では何兆もの .md ファイルや skill ファイルを集めて自分たち専用のチャットボットを作るためにトークンを燃やしているという皮肉もある
      本当に懸念しているのは、組織レベルの実際の知識がこうした近道の中で失われることだ
      簡単なサンプル依頼や概念学習の質問ならよいが、現在のツールやインフラをレビューしてデプロイ速度を5倍にし、Web調査を行い、組織導入の提案書と5年の費用便益分析まで一度に作れ、というようなプロンプトは人を自ら弱くする
      最近は誰もがClaudeの作った提案書をあちこちに投げ、少し自分で掘ってみたり、アーキテクトやシニアエンジニアと一緒に探索したりする過程を飛ばしている
      その結果、多くのことを浅くしか理解しなくなり、深く問い詰められるとうまく説明できず、AIが出した答えを確定的な戦略のように信じて、異議を受けつけようとしない
      より経験のある人から学ぶ機会すら、学習経験として見なくなる
      結局のところ、人間の脳そのものが今なお最もすごい技術の一つだと信じているし、この巨大な人工図書館をなぜわざわざ自分の外に作ろうとしているのかと考え直してしまう
    • ここで起きているのは理解の cargo cultというより、マネージャー視点の cargo cultだと思う
      Bret Devereaux が Game Of Thrones批評 で述べているように、エリート視点の世界観はエリートにだけもっともらしく、ユートピアのように聞こえる
      実際の労働から切り離されたこうしたバブルはいずれ大きく破裂するだろうし、AIで仕事を失った大衆がパンも食べられないと叫ぶときに、ケーキでも食べろと言うような態度なら、フランス革命級の反動すら想像してしまう
    • 逆に、AIは私が理解していなくても何かを代わりにやってくれることはある
      だが、深く理解しようとするときを助ける道具としては、むしろAIほど優れたものもあまりない
  • 結局、何かを理解するということは、自分でやってみることとほとんど同じだ
    理解できないこと自体は構わないが、その場合は代理指標があろうとなかろうと、結局は他人の理解を信頼するしかない
    あまり働かず、より多くを信頼する方向はある地点までは可能でも、それを超えると将来の仕事が危うくなる
    simulacrum は本当にいい言葉だ

    • Simulacrum の概念は Baudrillard に由来し、彼のエッセイ Simulation and Simulacra は、現代経済がなぜこれほど奇妙なのかを理解するうえでかなり役に立つ
  • だからこそ、中間管理職たちがLLM至上主義の最初の信徒のように見えたのだと思う
    中間管理職には、その役割の本当の熟練とは別に、知識労働をさらに抽象化し続けるよう促すインセンティブが多くあり、その抽象化されたレイヤーはembedding spaceの中で特によく記述されるように思える

  • AIコードは実際以上に悪く見えることが多い
    過度に冗長で、紛らわしく、fallbackが大量に入っているので、問題が起きると無数の try/catch を通って流れ、スタックトレースを見当違いの場所へ送ってしまう
    それでも純粋な機能だけで見れば、見た目が似た人間の書いたコードよりうまく動くことが多かった

    • とはいえ、そのように描写されたコードはやはり悪いコード
      人間にとってもLLMにとっても推論しづらいからだ
  • こういうブログ記事のスタイルがもっと増えてほしい
    長さも適切で、メッセージもよく伝わり、物語性もある
    最近は小説みたいな長さのLLM産AIスロップが多すぎるので、なおさらありがたく感じる

  • 業界にいる多くの人にとって、これはかなり自明な流れに見えている
    問題は、賭けられている金が大きすぎて、大手プレイヤーが望むものを押し通し続けていることだ

  • 原子より小さな粒子は実はひとつひとつが宇宙であり、その性質が、その宇宙を支配していた存在や、彼らが消えた後も動き続ける自動化の痕跡を反映しているのではないかと想像してしまう
    エントロピーを収穫しながら自らを増殖させ続ける自動機械のようなものだ
    私たちは今、自分たちより大きな力を作り出しており、どこかで後戻りできない地点に達するのかもしれない

    • 完全に理解したわけではないが、その想像は興味深い
      数多くの亜原子宇宙と文明が盛衰し、自律的な擬似知能技術に飲み込まれ、その結果が巨視的には粒子の振る舞いとして現れている、といったイメージが浮かぶ
      今の私たちも結局ひとつの粒子を作っていて、私たちの集団的選択が、私たちが属する上位宇宙にごく小さいながら意味のある影響を与えるのかもしれない
  • 誰かの出力は、常に別の誰かの入力になる
    LLMで量を増やせば、次の人はまたLLMでそれをパースして自分の出力を作る
    そうして連鎖が続き、最終消費者が不満を述べたときには、いったいどこで間違ったのか誰にも特定できなくなる

    • もちろんそのときは、最後の消費者が使い方を間違えたことになるのだろう
      最後の消費者だけが目の前にいて、他はみな7段階のプロキシの向こうに隠れているのだから