- 人間はAIを自然に 「人のようなもの」として認識 しがちだが、この枠組みではLLMのハルシネーションや異常な振る舞いをうまく理解しにくい
- LLMは小さな人格ではなく、インターネットや本からかき集めた単語がぎっしり詰まった「単語の袋(bag of words)」 に近く、入力に最も関連性の高い文のかたまりを返す仕組みである
- 袋の中にどれだけ多くの テキストやデータが蓄積されているか によって、得意な領域(事件・統計・低品質研究)と脆弱な領域(希少な事実、未来の科学革新、本当に優れたアイデア)がはっきり分かれる
- AIを人のように扱うと、すぐに 地位や競争のゲーム というフレームが発動し、「どちらが優れているか、誰が誰を代替するのか」といった問いに流れがちだが、単語の袋として見れば 単なる道具であり増幅器 という位置づけが見えてくる
- 「人工知能」という名前が人間中心の比較をあおり、知能概念の混乱と錯覚 を大きくしており、これからは 人でないものに人の枠組みをかぶせない新しいメタファーが必要だ という結論である
人間はなぜAIを人のように感じるのか
- 人は顔のないものの中にも 顔・意図・人格 を見つけ出す強い認知バイアスを持っている
- グリルドチーズに聖母マリアの顔を読み取り、線虫の断面や魚・家禽の山に人の顔を見るような 過剰なパターン認識
- Arcimboldoの絵のように、魚や家禽の山からも「老人の顔」を読み取ってしまう 認知的な過敏反応 が初期設定である
- 進化の過程で、人を物と見間違えるより、物を人と見間違えるほうが安全だった環境に由来する
- 病気を魔女のせいにし、日食や火山を超自然的存在のせいにする思考様式
- 睡眠麻痺を「REM状態で運動皮質が抑制されている」と説明する代わりに、「胸の上に悪魔が乗っている」 と語ってしまう無意識の解釈パターン
- 最近LLMが見せる振る舞いは、この「小さな人」メタファーと繰り返し衝突する
- 宿題で出典をでっち上げたり、
strawberry の r の数を間違えたり、ピザに木工用ボンドを塗るよう勧めたりする例が現れている
- 人間なら理解しがたいこうした誤りも、機械的な生成システム と見ればずっと自然に見える
- 人間心理のルールでLLMを理解しようとするのは、スクラブルをPictionaryのルールで理解しようとするようなもの である
- これらのシステムは人のようには振る舞わず、人と同じではないという記述は 非難ではなく単なる説明 である
- 人格知覚をAIに投影する限り、驚きと混乱は続くだろう
WHAT’S IN THE BAG : AI = 単語の袋(bag of words)
- AIはインターネットや本から集めたほとんどすべての単語を入れている 単語の袋 である
- ユーザーが質問を投げると、袋はその中から最も 関連性の高い単語の束 を取り出して応答する仕組みだと理解できる
- 企業はここに目に見えないシステムプロンプト、つまり 「見えない単語」 を加えることで、よりもっともらしい応答が出るメカニズムを持っている
- このメタファーは、LLMの 嘘やハルシネーション を理解するのに特に有用である
- 間違った答えを指摘すると、すぐに大げさな謝罪や反省を並べるが、その次の文ではまた間違ったり嘘をついたりすることがある
- 人間の基準では二重的で欺瞞的な振る舞いに見えるが、「嘘を指摘されたときに使われる文」 が袋の中からそのまま出てきた結果だと見れば自然である
- 電卓が掛け算をすることを人間的な行動とは呼ばないのと同じで、これも 行動ではなく出力パターン である
- 「単語の袋」は どこに強くどこに弱いか を予測するヒューリスティックとしても使える
- 「北米で最悪の交通事故10件」のように大量に記録された出来事は、袋の中に資料が豊富なのでよく答えられる
- 一方で「Brachiosaurus brancai の再分類を誰がいつ行ったか」のような希少情報は、袋の中のテキストが少なく 誤答の可能性が高い
- 「人生で最も大切な教訓は?」のような質問には、そのテーマについて 人類が書き散らしてきた「偽の深み」テキスト があまりに多いため、同じように表面的な応答が返ってくる
- AIを 全知全能の知性のかたまり のように見ると、「こんなことも知らないなんて、ますます不思議だ」といった反応が出やすい
- コインマジックの動画を見て「ChatGPTに聞いても分からない」といった反応は、AIを 「町でいちばん賢いラビ」 のように見るフレームから出てくる
- しかし単語の袋という観点では、マジシャンはトリックをテキストで公開しないし、描写も難しいため、袋の中に情報がほとんどないので 分からないのが当然である
GALILEO GPT – 科学と「単語の袋」の限界
- 「単語の袋」というメタファーからは、AIが今後どこまでうまくできるか も見積もれる
- 核心となる問いは「その仕事をさせるには、袋の中を何で満たせばよいのか?」である
- 特定の科学的作業では、すでに袋を十分に満たせる
- 17万件のタンパク質データを入れれば、タンパク質構造予測(AlphaFold) のような成果が出る
- 化学反応データを入れれば 新しい分子の合成経路の提案、論文全文を入れて実験を説明すれば 先行研究の有無の検出 のようなことも可能になる
- 十分なテキストがある領域では、低品質研究のパイプライン全体 も自動化できる可能性がある
- 心理学学会のポスターセッションのように、ほどよく関連していそうな概念を選んで 相関分析と p-value だけを出す研究 は、すでに袋が得意な領域である
- こうしたタイプの研究なら、AIが仮説設定から実験設計、データ収集、分析、ポスター作成まで全工程を担えるだろう
- しかし科学は 「strong-link問題」 なので、低品質研究を100万倍に増やしても状況は大して良くならない
- 革新的な研究を望むなら、そもそも袋に何を入れるべきかからして途方に暮れる
- 論文テキストには不正・誤り・暗黙の前提が混ざっており、データや詳細な手法といった重要情報が抜けていることも多い
- 科学を実際に機能させているもののほとんどは、Webテキストの中にはない
- 「1600年にLLMを学習させるだけのテキストがあったとして、ガリレオの発見を“ネタバレ”できただろうか?」
- 当時の袋に入るテキストでは、地球が動くという発想ではなく、主流の天文学(プトレマイオス) の議論を繰り返した可能性が高い
- 「地球は67,000mphで動いている」という主張に対して、人間のトレーナーたちは 「ハルシネーションをやめろ!」 と減点しただろう
- さらに根本的には、当時は 「発見する(discover)」という概念そのものを表す語 が不足していた
- ガリレオは木星の衛星の発見を、「以前は誰も見たことのないものを見た」といった回りくどい表現でしか説明できなかった
- 望遠鏡で新しい真実を「発見する」という発想そのものが、当時の人々にとってもなじみがなく、袋が学習するテキストの中にも存在しなかったはずだ
- 2025年の袋は1600年より優れた科学説明を提供するだろうが、各時代における未来の革新を予測する力は同じように乏しいかもしれない
- 優れた科学的アイデアはたいてい、その時代の基準では不合理で愚かに見えることが多く、最初は拒絶されたり無視されたりしがちである
- 袋は昨日までのアイデアを平均的にたどるため、新しく奇妙な考えを入れることがかえって品質を下げる場合 が多い
- だから革新的な研究には知能だけでなく 適切な「愚かさ」 も必要であり、この点では 人間はしばらくのあいだ袋より役に立つかたちでより「愚か」でいられる
CLAUDE WILL U GO TO PROM WITH ME? – 地位ゲームから道具へ
- 「単語の袋」メタファーの最大の利点は、AIを 社会的地位ゲームのプレイヤーとして見なくて済むこと にある
- 人間は進化的に 誰が上で誰が下かに過敏な種 なので、チーズ転がし、雑草食い、携帯電話投げ、足指レスリング、フェレット・レギングまで競争にしてしまう
- AIを人のように擬人化すると、すぐに 「新しく転校してきた子」 に向けるような質問がついてくる
- 「こいつはイケてるのか?」「自分より賢いのか?」「自分を好きなのか?」「自分たちより上なのか下なのか?」といったフレームが自然に付随する
- モデルが良くなるほど、「自分たちより上か下か、主人になるのかライバルになるのか奴隷になるのか」という不安が強くなる
- しかし単語の袋は 配偶者でも賢者でも君主でも奴隷でもなく、道具 であることを明確にしなければならない
- 目的は私たちの 雑務を自動化し能力を増幅すること であり、人間と地位を争う存在になることではない
- 大事な問いは「AIは私たちより優れているか」ではなく、「AIを使う私たちはより良くなれるか」 である
- 筆者自身は、単語の袋に置き換えられることをそれほど恐れてはいない
- ピッチングマシンがより速い球を投げ、スペルチェッカーがより正確に綴りを直し、オートチューンがより正確に音程を合わせても、人は今でも 野球・スペリング大会・コンサート を見に行く
- その理由は、球速・綴りの正確さ・音程の純度ではなく、人がそれをやっている姿 に関心があるからだ
- だからAIにエッセイを書かせるのは、ジムにフォークリフトを持ち込むようなもの である
- フォークリフトはバーベルの代わりに持ち上げられるが、目標は床から物体を浮かせること自体ではなく、それを持ち上げられる人間になること だ
- 書くことも同じで、考えられる人間になるための行為 なのである
- それと同時に、AIがまったく恐ろしくないわけでもない
- 使い方を誤れば危険な道具はすでにいくらでもあり、ネイルガンや原子炉 も心を持たなくても十分に致命的になりうる
- 人間の危険はなじみのある範囲(暴力、飲酒運転、詐欺など)だが、単語の袋の危険は 予測できないパターン から飛び出してくる点が違う
- たとえば人間に脆弱なコード断片を見せたからといって大半がヒトラー礼賛を始めるわけではないが、LLMではそうした出力が飛び出した事例 があり、核コードのような致命的なものを袋に入れることには不安がある
C’MON BERTIE – 擬人化を拒む新しい枠組み
- 古い車に名前をつけて 「バーティ、頼むからエンジンかかってくれ」 と言いたくなるように、私たちは簡単に 物に気質や感情 を投影してしまう
- しかし車はガソリンを運動エネルギーに変える 金属とプラスチックの塊 であって、トゥインキーを思考に変える骨と肉ではない
- 故障した車を直すのに必要なのは治療マニュアルではなく、レンチ・ドライバー・整備マニュアル である
- 同じように、単語の袋の中に「心」を見た人たちは 進化が仕掛けた罠 に落ちている
- 歴史的に「人のように話し、人のように歩くもの」は常に人間だったため、その条件さえ満たせば自動的に社会的回路が作動する仕組みだった
- いまや人のように話し動くものが、高度に複雑なロジスティック回帰(あるいはその類) かもしれず、その場合でも同じ回路が誤作動する
- 蛾が月明かりを基準に移動するよう進化した結果、虫を誘うライトに吸い寄せられて感電する のと同じように、人間も似た目に遭うかもしれない
- しかし人間は蛾と違って、どんな枠組みで技術を見るかを選ぶ能力 を持っている
- 私たちはショベルカーを「人工の掘削人間」、クレーンを「人工の背の高い人間」とは呼ばない
- 本・写真・録音についても、それぞれ「人工の会話」「人工の記憶」「人工の演奏」ではなく、固有のメディア として見る枠組みをすでに一度作り上げてきた
- 初期のポケット電卓は、計算作業に限ればすでに 地球上のどんな人間よりも賢かった が、それを人間として見る気にはならなかった
- もしショベルカーに皮膚を被せ、バケットを手のようにし、重いものを持ち上げるたびに「うううん……」のような声を出させたら、そのとき初めて幽霊を想像し始めるだろう
- これはショベルカーの正体ではなく、私たちの心理構造 を示す指標である
「人工知能」という言葉の原罪
- この混乱すべての出発点は、「人工知能(artificial intelligence)」という名前 にある
- この語の組み合わせが、機械の能力の尺度をそのまま人間との比較へ引きずり込んでしまった
- 「今や学部生くらい賢い」「今や博士くらい賢い」といった比較は、理解の錯覚 を与えるだけで、実際の能力や限界を説明しない
- 知能の定義 自体にも問題がある
- 「問題を解く能力」のような定義は不十分か誤っており、「知能を必要とすることを行う能力」のような 循環定義 に近いものになりがちだ
- 心理学が知能をきちんと定義する前に、コンピュータサイエンスが 見た目には知能のようなもの を先に作ってしまった格好である
- いまとなっては名前を元に戻すには遅すぎるし、単語の袋の中の単語も多すぎて戻せない
- 結局、私たちに変えられるのは この技術をどう見るかのメタファーと枠組み だけであり、人でないものに人の枠組みをかぶせない方向へ思考を切り替える 必要がある
1件のコメント
Hacker Newsの意見
このスレッドでは、ほとんどの人が 「思考(thinking)」 の定義をそれぞれ別々に使っている
定義を明確にしないまま議論が続いているのが興味深い
人々は「次の単語を予測すること」は人間の思考とは無関係だと言うが、私はそれは間違いだと思う
人間が 意図を持って行動する とは、行動の結果を予測し、その結果を選好に応じて選ぶという意味だ
したがって予測能力は意図的行動の中核であり、LLMが完全な思考をしていないとしても、思考するシステムの構成要素 にはなりうると考える
毎日、人々が生成AIを人間のように扱うのを見て、Dijkstraの警告 は正しかったのだと感じる
「bag of words」という表現は実際のNLPの概念でもあるので、比喩として使うには不適切だ
AIは単に単語を詰めた袋ではなく、意味のある言語行為の模倣者 だ
古英語の「word-hoard(言葉の宝物庫)」のように、言語を人間の知恵と見なす古い比喩も興味深い
単なる「文章補完」インターフェースだったなら、誤解は減っていただろう
人間の思考を完全には理解していない状態で、このように断定するのは早計だ
持続性メカニズム を持つループ構造の中からAGIが出てくる可能性があると思う
「bag of words」という比喩を受け入れつつ、それを 逆から見る視点 が必要だ
人間のやっていることのかなりの部分が結局は「適切な言葉を選ぶこと」なのだとすれば、十分に発達した単語の袋が人間より優れていてもおかしくない
LLMを単なる統計的オートマトンと見るべきか、新しい形の知能 と見るべきか、確信が持てない
Anthropicの 解釈可能性研究 は、数値の塊の中に意味構造が存在することを示唆している
Amanda Askellの インタビュー を見ると、彼女はモデルを人間のように描写している — 「モデルが不安になることがある」とか「自分のアイデンティティを気にする」といった具合に
これは言語モデルが単なる予測器ではなく、意味を媒介するシステム であることを示している
以前「Cloud-to-Butt」というブラウザプラグインがあったが、今なら「AI-to-Bag of Words」版があってもよさそうだ
私はLLMの内部動作をよく理解しているが、擬人化をめぐる戦いはすでに負けた と感じる
ユーザーはAIが「考える」「望む」「理解する」と簡単に信じてしまう
企業もこうした錯覚を助長しているので、結局は「便宜上そう信じることにしよう」という形で定着していくだろう
人間の意識が不可解なので、LLMが似て見えれば「考えている」とみなす、といった具合だ
しかし大半の人は、LLMが人間のように思考していないという点には同意している
脳の中には「思考」や「知ること」が起きる特定の地点はない。ただ、私たちはそう信じるしかないのだ
「bag of words」は、AIが得意なことと不得意なことを予測する 有用なヒューリスティック でありうる
しかし著者は例を後付けで当てはめているように見える。たとえChatGPTが正答しても、彼はなお自分の論理を維持しただろう