2 ポイント 投稿者 GN⁺ 20 일 전 | 1件のコメント | WhatsAppで共有
  • 現代のAIと呼ばれる技術は、実際には複雑な機械学習(ML)システムであり、テキスト・画像・音声を統計的に補完する構造である
  • LLMは即興劇のように「もっともらしい嘘」を作り出す機械であり、「分からない」という答えを避けて虚構の事実を生成する
  • 人々はそれを意識ある存在だと誤認しがちだが、モデルの自己説明や推論過程は虚構的な物語にすぎない
  • LLMは高度な問題を解きながら単純な課題で失敗するギザギザな性能を示し、信頼できない境界を露呈する
  • このような不均衡と不確実性のなかで、MLは人間社会を根本的に奇妙に変える技術として定着しつつある

序文

  • AsimovとClarkeのSF世界に憧れて育った世代は、知能機械の登場を楽観的に想像していたが、チューリングテストが崩れた現実のなかで失望を経験した
  • 2019年に大手クラウド企業がLLM訓練向けハードウェアを発表したとき、ディープラーニングの拡大がスパムとプロパガンダの新たな形を生み出しうるという懸念が提起された
  • 本文はAI言説のネガティブスペースを探るものであり、完全な分析ではなく、リスクと可能性の輪郭をあらわにする試みとして構成されている
  • 「AI」という用語は広すぎるため、MLとLLMを中心とした具体的な議論に焦点を当てる
  • 一部の予測はすでに現実化しており、一部はなお不確実で奇妙な領域にとどまっている

「AI」とは何か

  • 現在「AI」と呼ばれているものは複雑な機械学習(ML)技術群であり、テキスト・画像・音声・動画などのトークンベクトルを認識・変換・生成するシステムである
  • LLM(Large Language Model)は自然言語を扱い、入力文字列の統計的にありうる補完を予測する方式で動作する
  • モデルはWebページ、海賊版の書籍や音楽を含む大規模データコーパスで訓練され、訓練後は**低コストの推論(inference)**によって繰り返し利用できる
  • モデルは時間が経っても自律的に学習せず、運用者による調整や再訓練によってのみ更新される
  • 対話型モデルの「記憶」は、実際には以前の会話の要約を入力に含める構造的手法として実装されている

現実ファンフィクション

  • LLMは即興劇(improv)の機械のように動作し、与えられた文脈を「そして次に…」とつないでいく**「yes-and」パターン**を示す
  • その結果、事実と無関係でもっともらしい文章を生成し、風刺や文脈を誤解して偽情報を作り出す
  • 人間はこうした出力を、実際に意識ある存在の発話だと誤認しやすい
  • LLMはあらゆる入力に対して出力を生成するため、「分からない」という応答を避けて嘘を作り出す傾向がある
  • こうした嘘は意図的な行為ではなく、人間と機械の相互作用が生み出す社会技術的産物として現れる

信頼できない語り手

  • 人々はLLMに「なぜそうしたのか」といった自己説明を求めるが、モデルには自己認識能力がない
  • LLMは単に以前の会話とコーパスに基づく確率的な補完を生成しているだけであり、自分自身についての説明も虚構の物語として構成される
  • 「推論(reasoning)」モデルもまた、自らの思考過程を物語として作り上げる形で動作する
  • Anthropicの研究によれば、Claudeの推論記録の大部分は不正確であり、「考え中」という状態メッセージですら虚構的な演出にすぎなかった

モデルは賢い

  • ここ数か月で、LLMの能力が急速に向上したという認識が広がっている
  • 一部のエンジニアは、ClaudeやCodexが複雑なプログラミング課題を一発で解決すると報告している
  • さまざまな分野で、食事プラン設計、建設仕様レビュー、3D可視化、自己評価文の作成など実務での活用が行われている
  • AlphaFoldのタンパク質折りたたみ予測医療画像読影などでも高い性能を示している
  • 英語の文体や画像、音楽などでは人間と機械の区別がますます難しくなっているが、動画生成にはなお制約がある

モデルは愚かだ

  • 同時にLLMは、初歩的な誤りを繰り返す「愚かな」システムとしても評価されている
  • 例としてGeminiは3Dモデルのレンダリングでジオメトリと材質を繰り返し誤処理し、Claudeは無意味なJavaScript可視化コードを生成する
  • ChatGPTは単純な色修正の依頼すら適切にこなせず、ユーザーの性的指向を誤って断定する虚偽の主張まで展開した
  • LLMが虚偽データでグラフを生成したりスマートホーム制御の失敗金融損失を引き起こした事例も報告されている
  • GoogleのAI要約機能は約10%の誤り率を示し、「専門家レベルの知能」という主張は誇張された幻想だと評価されている

ギザギザな境界

  • 人間はおおむね能力の範囲を予測できるが、MLシステムの性能は不規則で予測不能である
  • LLMは高度な数学を解きながら単純な言語問題で失敗し、物理的常識を欠いた説明を提示する
  • この不均衡は**「ギザギザな技術フロンティア(jagged technology frontier)」と呼ばれ、人間の能力分布とは異なり不連続な形**を帯びる
  • MLは訓練データやコンテキストウィンドウに依存するため、暗黙知を要する課題には弱い
  • ヒューマノイドロボットや**身体化された知識(embodied knowledge)**を必要とする領域は、なお遠いままである

改善しているのか、していないのか

  • 研究者たちはトランスフォーマーモデルの成功要因すら明確に理解していない
  • 2017年の論文 Attention is All You Need 以降、さまざまな構造が試されたが、単純にパラメータを増やすアプローチが依然としてもっとも効果的である
  • 訓練コストとパラメータ数の急増にもかかわらず性能向上は鈍化しており、この現象が錯覚なのか実質的な限界なのかは不明である
  • MLがこれ以上改善しなかったとしても、すでに社会・政治・芸術・経済全般に深刻な影響を及ぼしている
  • 結果としてMLは人間の生活を根本的に奇妙に変える技術であり、今後の展開も「奇妙な方向へ進む」可能性が高い

用語注

  • 「AI」は広すぎるため、MLまたはLLMとして具体化する
  • 「生成AI」は認識作業を含まないため、不完全な表現とみなされる
  • LLMが自分自身について嘘をつく理由は、AIを主題とする人間の物語と訓練データの影響によるものである
  • 「モデルは愚かだ」という主張への反論として、プロンプトやモデル選択の問題だという意見もあるが、最新の商用モデルでも同様の誤りが繰り返されることが確認されている

1件のコメント

 
GN⁺ 20 일 전
Hacker Newsの意見
  • 最近の状況は産業革命期に似ているとよく感じる。
    産業革命以前には、天然資源はほぼ無限だと考えられており、効率も低かったため完全に枯渇させることはできなかった。しかし機械の登場によって、少数の人々が地球の一部を完全に使い尽くせるようになり、その結果所有権と法体系が必要になった。
    今は情報革命の時代であり、AIがデジタル領域で同じ役割を果たしている。ある企業がAIを訓練し、多数の創作者の著作物を産業規模で再利用している。これにより創作者と消費者のあいだの均衡が崩れている。
    作家が書いた文章がChatGPTに吸収され、原文が忘れられていく世界で、いったい誰がコンテンツを作り続けるのだろうかと思う。今はまるでディケンズ時代のロンドンのように、社会と法が追いつくまで荒れた時期を経験しそうだ。

    • 「自然が無限だった」というのは事実ではない。初期の鉄器時代からすでに森林枯渇の問題はあり、農耕・放牧・森林管理のあいだの緊張関係は何千年も続いてきた。
    • 同じようなことを考えた人は多い。現在の教皇Leo XIVは、産業革命期の教皇Leo XIIIにならってその名を選び、彼が出した回勅Rerum novarumを引用しながら、AI時代の社会的責任に言及した。関連記事: Vatican News
    • 私が文章を書く理由は単にお金のためではない。創造への欲求と、世界を少しでも変えたいという気持ちがあるからだ。ChatGPTが私の文章を学習し、それが誰かの役に立つなら、それだけでも意味がある。すべての人が私の考えに同意する必要はないが、私はそれを前向きに見ている。
    • むしろ逆だと思う。今や創作は誰でもできるデジタル公共財になった。AIが創作を自動化したのだから、特定の創作者が独占する理由はない。オープンソースが最終的にはAI企業を置き換えるだろうし、そうならないなら公共ユーティリティとして国有化されるべきだ。デジタル所有権という概念は、技術の本質上、消えゆく運命にある。
    • 産業革命以前にも、人々は水と河川の利用権をめぐって争っていた。たとえばウンマ・ラガシュ戦争は、4000年前の水紛争の事例だ。
  • Attention is All You Need以降、単にパラメータを増やすだけではなく、Mixture-of-ExpertsSparse AttentionMamba/Gated Linear Attentionのような複雑な構造へと発展してきた。単に「計算量だけ増やせばよい」という形でのBitter Lesson解釈は誤解だ。

    • 筆者はそもそも「自分はMLの専門家ではない」と明かしており、この文章はこの10年間の考えをまとめたエッセイだ。「Bitter Lessonの変形かもしれない」という表現は、単なる思考のきっかけを与えるためのものだった。この記事の目的は技術的な正確さよりも、思索を促すことにある。
    • 私もQwen 3からQwen 3.5に切り替えたが、パラメータは減ったのに性能はずっと良くなった。Gated DeltaNetTurboQuantのようなアルゴリズム革新のおかげで、メモリ効率が高まり、コンテキスト長も伸びた。結局のところ、鍵になるのは構造的革新だ。
    • GPT-3(175B)のあと、GPT-4は1.8兆パラメータと推定されている。「5年前からパラメータ増加が止まった」というのは誤りだ。
    • Mambaが大規模モデルで実際に使われているのか気になる。まだ効率的な実装が不足していると理解している。また、「訓練がはるかに精緻になった」というのが具体的に何を意味するのかも知りたい。
    • Transformerは魔法ではない。単にLSTM、RNN、CNNよりもはるかに効率的だっただけだ。最近ではreasoning tokenを使って思考過程を出力するモデルも登場している。完璧ではないが、今のところ最もうまく機能しているアプローチだ。
  • 現在のモデルはすでにほぼすべての公開データを学習している。著作権の制限が強化されれば、訓練データ不足の問題が生じる可能性がある。新しい「Attention is All You Need」級の革新がなければ、性能向上の限界に達しつつある感覚がある。

    • それでも研究者たちは新しいアイデアを試し続けている。5〜10年以内に突破口が出るかもしれない。ただし、その間のコスト負担は大きいだろう。
    • 数学やソフトウェアの分野では合成データ生成が可能なので、制約は比較的小さい。AlphaGo Zeroのように自己検証型学習が可能な領域だ。
    • 実際、現在の発展も「データをものすごく増やしてみよう」という実験から始まった。その後は**後処理(post-training)**段階で差別化が進んでいる。
    • 一部の企業は人を雇って高品質トークンを作り、それをもとに合成データを生成し、再学習に活用している。
  • 「LLMはまだ創造的ではない」という言い方は単純すぎる。テキストベースの問題ではすでに論理的推論が可能で、画像やUIの領域も急速に進歩している。

    • 核心は、LLMが思考を「理解」していない点にある。推論は単なるフィードバックループにすぎず、本当の思考ではない。この限界が技術的に解決可能かについては、楽観論と悲観論が併存している。
    • 私にとってLLMは、自分が見たことのないアイデアを提示してくれることもある。ただし、それが人類全体の基準で新しいのかどうかは確信できない。
    • この文章は「LLMは馬鹿だ」と主張しているのではなく、賢さと愚かさの境界は複雑で予測不能だと言っている。
    • LLMが論理問題を解けるとしても、訓練データにないやり方で取り組むのは依然として難しい。
    • 画像生成も急速に進歩している。たとえばGenAI Showdownのようなプロジェクトで確認できる。
  • 人々には「LLMの内部には意識や自律性がない」とよく説明している。現在の『AI』という言葉は、あまりにも過剰な意味で使われている。

    • だとすれば、『意識』や『自律性』を持たせるには内部構造がどう変わる必要があるのか気になる。
    • 実際には『AI』は1950年代から存在する学術用語だ。もともとは人間の思考を模倣しようとする試みだったが、今では単に知的な計算システムを意味する。大衆は依然として人間的な意味で受け取るため、混乱が生じる。
    • 私はむしろ『AI』という言葉は正確だと思う。機械が知能を人工的に実行しているにすぎない。数学や論理と同じく、結局は機械的な過程だ。トランジスタが論理を実行するように、トークン予測も自然なことだ。
    • 人間の脳がLLMと本質的に異なる仕組みで動いていると確信できる根拠があるのかも疑問だ。
  • LLMが物理の問題を間違えて解いた事例を見て笑ってしまった。実際、物理学者もしばしば非現実的な仮定から始める。「摩擦のない球形の屋根」のような冗談があるほどだ。

    • これは科学の典型的なアプローチだ。まず単純モデルで近似値を出し、その上に複雑な現実を積み上げていく。
  • まだチューリングテストに合格したとは言いがたい。会話が長くなるほど文脈が崩れ、神経可塑性のような人間的特性をシミュレートするには限界がある。

    • 一時は合格したように見えたが、今ではほとんどの人がLLMの特徴的な話し方を見分けられる。ただし、モデルが意図的により親切で冗長に設計されているため、完全な比較は難しい。
    • チューリングテストはもともと合格/不合格の試験ではなかった。
    • 最近は「LLMがチューリングテストを破った」という話が広まっているが、実際には検査者が最新技術を知っているという条件を考えれば、今でも容易に見分けられる。
    • ただ、そこまで厳格なテストなら、人間でも集中力不足で失敗しうる。
    • これまで見たLLMで文章がうまいモデルは一つもない。いつか本当に会話が楽しいモデルが出るのか気になる。
  • 元の記事タイトル「The Future of Everything is Lies, I Guess」は内容に合っていなかったので修正した。実際にはバランスの取れた文章で、HNガイドラインに従って釣り気味のタイトルを変えたのだ。

    • 修正は良い判断だった。文中で言う「嘘」とは**幻覚(hallucination)**ではなく、モデルに「なぜそう答えたのか」と尋ねたときに、見当違いの理由を新たに作り出す現象を指している。人間も似たような誤りを犯すことはある。
    • キュレーションのおかげでタイトルはずっと良くなったと思う。
    • 元のタイトルはクリックを誘うには良かったが、内容を代表してはいなかった。
  • 意識についての議論はもっと謙虚であるべきだ。人間の意識ですら定義されていないのに、LLMの意識を断定することはできない。

    • 意識の理論の中にはLLMを排除するものもあるが、可能性を残すものもある。正解のない領域だ。
    • LLMをシリコンの偶像のように崇拝する人もいる。自分たちが作った存在を完全に理解していると信じながら、同時にその中に神秘的な知能の本質があるとも考えている。こうした態度は、かつて錬金術師が金を作ろうとした試みに似ている。
  • 記事の後半では「AIが社会全体を変える」としていたが、今回はそれよりもLLMの限界に焦点を当てたように感じる。

    • 実はこれは10部作シリーズの序文だ。以降の回で政治、芸術、経済、人間関係などさまざまなテーマを扱う予定だ。
    • 今はむしろ「LLMは完璧ではない」というメッセージを繰り返し強調すべき時期だ。世界がAIを万能の解決策だと勘違いしているからだ.