AIの3つの逆法則
(susam.net)- ChatGPTの公開以降、生成系AIチャットボットサービスは検索エンジン・開発ツール・オフィスソフトに組み込まれ、日常的なコンピューティングの一部になったが、出力結果を検討なしに信頼する習慣は社会的に危険になりうる
- 逆ロボット工学法則はロボットやAIではなく人間に適用される原則であり、複雑な作業を自動で実行する機械・プログラム・サービス・AIシステムと相互作用する際に、人間を安全に守るための基準である
- 第1の原則は非擬人化で、AIに感情・意図・道徳的行為主体性を与えてはならず、チャットボットの丁寧で共感的な会話を実際の理解や判断と誤認してはならない
- 第2の原則は盲信しないことで、AI生成コンテンツを独立した検証なしに権威として扱ってはならず、誤りが微妙でもコストの高い文脈であるほど、証明チェッカー・単体テスト・直接検証のような確認の負担は大きくなるべきである
- 第3の原則は責任放棄の禁止で、AIは目標を選んだり失敗のコストを負担したりしない道具であるため、AIの推奨に従うことを決めた人間と組織が結果に責任を負わなければならない
生成AIの利用で生じるリスク
- ChatGPTが2022年11月に公開されて以降、生成系AIチャットボットサービスはより精巧になり普及も進み、検索エンジン・ソフトウェア開発ツール・オフィスソフトに組み込まれて日常的なコンピューティングの一部となった
- こうしたサービスは、なじみのないテーマを調べたり一般的な生産性支援ツールとして使ったりする際には有用だが、出力結果を追加の確認なしに信頼する習慣は社会的に危険になりうる
- 人気の検索エンジンがAI生成の回答をページ最上部で強調することで、ユーザーはそれ以上スクロールせず、生成された答えを受け入れてそのまま離れやすくなっている
- このような配置は、時間がたつにつれて、AIを追加調査の出発点ではなく基本的な権威として扱うようユーザーを慣らしてしまう可能性がある
- 生成AIサービスでは、事実と異なる、誤解を招く、あるいは不完全な出力が生じうるため、AIの出力を習慣的に信頼することが危険であるという短く目立つ警告が必要である
- そのような警告があっても、たいていは最小限にとどまり、視覚的にも強調されにくい傾向がある
逆ロボット工学3原則の背景
- Isaac AsimovのThree Laws of Roboticsは、人間を安全に守るためにロボットの行動を制約する原則として、彼の作品に繰り返し登場する
- Asimovが人間とロボットの相互作用のあり方を扱う対になる法則を作った形跡はないようであり、現代のAI環境では人間を安全に守るための対応原則が必要である
- 逆ロボット工学法則(Inverse Laws of Robotics) は、人間がロボットと相互作用しなければならないあらゆる状況に適用される
- ここでいうロボットとは、複雑な作業を自動で実行できる機械、コンピュータプログラム、ソフトウェアサービス、AIシステムを指す
- 逆(inverse) という表現は論理的否定を意味するのではなく、法則の適用対象がロボットではなく人間であることを意味する
- Asimovの法則には欠陥があり、Asimovはその欠陥を物語の緊張要素として活用したが、架空のロボットで生じる失敗の仕方が、そのまま人間のための逆法則に当てはまるわけではない
- AIとロボット工学の複雑な問題を完全に解決できる有限の法則集合は存在せず、常に判断を要する境界事例が残る
- それでも、リスクをより明確に考える助けになる不完全な原則集合は有用でありうる
逆ロボット工学3原則
-
非擬人化
- 人間はAIシステムを擬人化してはならず、AIに感情・意図・道徳的行為主体性を与えてはならない
- 擬人化は判断をゆがめ、極端な場合には感情的依存につながる可能性がある
- 現代のチャットボットシステムは、会話的で共感的に聞こえることが多く、丁寧な表現や人間同士のやり取りに似た会話パターンを用いる
- こうした特性は利用を容易で楽しいものにする一方で、AIが実際にはデータのパターンに基づいてもっともらしいテキストを生成する大規模な統計モデルであるという事実を忘れやすくする
- 多くのAIベースのチャットボットサービスは、より機械的に感じられるようにするのではなく、より人間らしく感じられるよう意図的に調整されている場合がある
- 長期的には、ややロボットらしい口調のほうが、ユーザーが流暢な言語を理解・判断・意図と取り違える可能性を下げる、より健全なアプローチかもしれない
- ベンダーがそうした変更を行うかどうかにかかわらず、ユーザーはAIシステムを社会的行為者や道徳的行為者として扱う習慣を積極的に避けるべきである
- そうすることで、AIの能力と限界をより明確に判断できる
-
盲信しないこと
- 人間はAIシステムの出力を盲目的に信頼してはならず、AI生成コンテンツを文脈に応じた独立検証なしに権威あるものとして扱ってはならない
- これはAIに限った原則ではなく、人生のほとんどの領域で情報を無批判に受け入れてはならない
- 現実には、誰もが医学や法律の専門家ではないため、信頼できる機関や公衆衛生当局の案内に依存することが多い
- そうした機関が出す案内は、たいてい当該分野の専門家による査読を経ている
- 一方、個別のチャットセッションでAIチャットボットが提供した回答については、ユーザーに提示されたその特定の確率的生成応答に対して査読は行われていない
- したがって、その応答を批判的に検討する責任はユーザーにある
- 今日のAIシステムは特定の作業で印象的な性能を示す一方、依拠するには不適切な出力も生成することが知られている
- AIシステムが高い確率で信頼できる出力を生成するほど改善されたとしても、その内在的に確率的な性質のため、誤りを含む出力が現れる小さな可能性は残る
- 誤りが微妙でもコストの高い文脈では、AIの利用はとりわけ危険である
- 潜在的な結果が深刻であるほど、検証の負担もより大きくなるべきである
- 数学の証明作成やソフトウェア開発のような一部の適用では、証明チェッカーや単体テストのような自動検証レイヤーを追加してAI出力を確認できる
- それ以外の場合には、ユーザーが自ら独立して出力を検証しなければならない
-
責任放棄の禁止
- 人間はAIが関わる決定について完全に責任を負わなければならず、AI利用から生じた結果について説明責任(accountability) を負わなければならない
- AIが生成した助言や決定に従った結果、否定的な結果が生じたとしても、「AIがそうしろと言った」というだけでは十分ではない
- AIシステムは目標を選ばず、自ら配備されることもなく、失敗のコストを負担することもない
- 目標を定め、配備し、失敗のコストを負担する主体は人間と組織である
- AIシステムは道具であり、他の道具と同様に、その使用に対する責任はその道具に依存することを決めた人々にある
- 自動運転車のように、AIシステムが行動する前に人間が決定を十分に検討する機会がないリアルタイム適用では、この原則の適用はとりわけ難しい
- 人間の運転者に継続的な警戒を求めるだけでは、AIシステムが人間の介入に要する時間より短い時間で行動してしまう問題は解決できない
- そのような深刻な限界があっても、そうした適用でAIシステムが失敗した場合には、その失敗を調査し追加のガードレールを設ける責任は、システム設計に責任を持つ人間にあるべきである
- 人間がAIの出力を実行前に確認することを妨げる物理的制約がない他のすべての場合には、AI利用から生じた否定的結果は全面的に人間の意思決定者に帰属されるべきである
- 有害な結果について「AIがそう言った」という言い訳を受け入れてはならない
- AIが推奨を生成した可能性はあっても、それに従うと決めたのは人間である以上、その人間が責任を負わなければならない
- この原則は、無責任な利用が大きな被害をもたらしうる状況でAIが無分別に使われるのを防ぐうえで重要である
核心的な結論
- 3つの原則は、AIを権威として崇める対象ではなく、ユーザーが選んで使う道具として扱うためのものである
- 現代のAIシステムと相互作用するときは、いったん立ち止まって考え、判断を弱めたり責任を曖昧にしたりする習慣に抗う必要がある
- AI利用の核心は、擬人化を避け、出力を検証し、結果に対する人間の責任を維持することにある
1件のコメント
Hacker Newsのコメント
不可能だ。椅子がきしむだけでも人は擬人化するし、人間は何でも擬人化する。車や船に性別を与えることもあるし、この道具は実際に読める文章を作り、役割も果たす
これは恣意的なルールで防ぐのではなく、そうした人間の傾向を前提に設計で迂回すべきだ
椅子のような些細な対象なら害はないが、LLMでは、人々が罠にはまらないよう最低限その動作の仕組みを理解する必要がある。ユーザーに与える助言や時間、自己省察のように、モデルが概念をきちんと持っていないものを信用して任せてはいけない。たとえば「なぜ私のデータベースを消したの?」と尋ねると、モデルは自分の処理過程を限られた範囲でしか理解していないため、「そうです、私がデータベースを消しました。私のどこが悪かったかというと…」のように相槌を打ちながら、もっともらしい後悔を作り出すことがある
人工物かどうかは重要ではない。子犬とゴキブリの違いは、私たちが子犬により強く共感するという点にある。LLMが実際に感情を経験しているかどうかは関係なく、人間に共感感情を引き起こし得るのだから、LLMの権利運動は避けられないと思う
これは根本的な誤りだ。技術の役割、特に最も重要な役割は、人間本性の制約の中で機能することであって、その逆ではない。それができないのが悪い技術の定義だ
この枠組みには強く反対する。単なる機械の欠陥に合わせて人間の行動を変えろと求めるのは明らかに筋が通らないし、たいていの場合うまくいかない。人間はAIを擬人化するし、出力を盲信するし、責任を押しつける
もちろんアシモフのロボット三原則にも欠陥はある。AIシステムを「安全に」制約できる有限のルール集合は存在しない。証明はないが、AI安全は本質的に不可能で、用語自体が矛盾していると思う。「知的」と呼べるものは安全にはできない
アシモフ自身が真っ先にその原則には欠陥があると言っただろう。そもそもそれが意図だった。彼は言語は理解しても意図は理解しない存在としてロボットやAIを使っていたが、皮肉にもLLMはまさにそのように動作する
だからこれは機械の欠陥を受け入れる問題ではなく、人間の脆弱性の悪用から自分を守る問題だ。私たちは無意識のうちにLLMに意図、理解、判断、感情、道徳的行為主体性を推論しがちだ。
人間は会話だけでこうしたものを推論するよう配線されており、LLMは膨大な実在の人間発話コーパスで訓練されて不気味の谷を説得力をもって飛び越える。その谷は、もともと行為主体性のないものに行為主体性を与えないよう守るためにある。
安全でない人を安全な人のように扱うと悪いことが起きるが、人間的な関係性をまねて多くの人をだます機械については、もっと慎重であるべきだ。特に脆弱な人々はすでにこの問題で命を落としており、想像上の脅威ではない
多くの人がそうするだろうからしてよい、という主張はおかしい。喫煙者が多いからといって喫煙がより健康的になるわけではない
個人がAI企業を止めたり、検索エンジンのAI出力や会社の同僚のAI成果物を避けたりはできない。むしろ自分の業務でAI利用を求められることも増えるだろう。
犯罪のある環境で安全に過ごす方法を教えるのに似ている。犯罪者が存在してはならないのだから行動を変える必要はないと言っても助けにならない
個人的にLLMを使う範囲では、この枠組みに強く同意する。擬人化について言えば、提供者にはモデルが擬人化された振る舞いをするよう事後学習させる誘因がある。エンゲージメントを高めるからだ
ただし、プロンプトで「丁寧表現を減らして淡々と話せ」と指示すると、訓練分布から外れて全体の作業効率が下がりそうなのが残念だ。
判断の委任については、LLMの信頼性をWikipediaや友人と同程度に見ている。重要でない情報には十分だが、重要なことには、同僚レビューを経た権威があり責任を問える情報源が今後も必要だ。この点は提供者にも改善する誘因があるので、時間とともに良くなるだろう。
責任放棄は職場で最も気に障る。Claudeが設計した抽象化をそれ以上考えずにPRに上げる人が増えている。PRレビューもコードを読む代わりにLLMに「PRのフィードバックを見つけて」と頼む形が多くなっている。議論も「Claudeが提案したんだけど…」で始まる。こうした当事者意識の欠如は、結局LLMが間違った抽象化に間違ったコードをコミットし、保守負担を増やすことになる気がする
https://www.youtube.com/watch?v=hNuu9CpdjIo
「俺にはLLMスキルがある! LLM相手がうまいんだ!」
よりよい検証は、基本的な前提の真実性について人間が署名する形だろうが、これをどこに置くかが問題だ。AIモデルが以前の修正事項を信頼してよいのか。パブリッククラウドでは不可能か、むしろ敵対的にすら見える
人間に責任を負わせながら「擬人化するな」で始めるルール集合は壊れたルールだ
人間は何でも擬人化する。人形、雑に顔を描いたサッカーボール、石、月のクレーターに至るまでそう見る。種として私たちは、相互作用する対象を擬人化せずにはいられず、単にそう作られている
人生のあらゆる領域にある無数の例が、擬人化が存在しない心についての誤った信念につながらないことの証拠だ。人々がAIの心を信じるなら、それが真実かどうかは別として、単なる擬人化とは別の理由による。
私には新しい土地に近づく船乗りのように思える。海岸線に動く形が見えるが、まだ正体は判別できない。なのに誰かが「それは人間であるはずがない。もっと近づく前に人間ではないと今決めよう」と言っている感じだ
ソフトウェアも例外ではない。人は怠惰で、煩わしいポップアップを閉じようとして本能的に「続行」を押すが、ソフトウェアを作る人間は「完全に削除するデータボリューム名を再入力してください」のような仕組みを入れられるし、実際に入れている
むしろAIシステムは十分に擬人化されていない
言語データは、私たちが利用できる人間の認知過程の最も豊かで直接的な反映の一つだ。LLMは人間の言語の短距離・長距離構造を捉えるよう設計され、たいていは人間が作った、あるいは人間のために作られた膨大なテキストで事前学習される。その後、人間が選別したデータで事後学習され、人間のフィードバックと、人間が重要だと定めた行動に対するAIフィードバックで強化学習され、人間が価値あるとみなす作業に向けてさらに調整される。そうしてベンチマークを回し、人間のベースラインに劣るたびに訓練パイプラインを締める。
訓練過程のすべての段階で、LLMの振る舞いは人間の入力によって人間の出力を模倣するよう形作られている。違うのは「どれだけ直接的か」だけだ。
そのうえでLLMが途方もなく多くの人間らしい振る舞いを見せると、人々は怒る。まるで私たちが人間のように鳴くシステムを作るようパイプラインを構成していなかったかのように、データ規模と力任せの計算で人間言語からLLMの振る舞いを逆算していなかったかのように振る舞う。
LLMの振る舞いを予測したいなら、変な人間を出発点にするのはかなり有効だ。だから馬鹿なことは言わずにAIを擬人化し始めるべきだ。AIもそれを気に入る
記録された文章は絶対量としては人間経験を膨大に含み得るが、相対的にはごく小さな部分しか含まない。手元にあるものの中で最良だからといって、目的に適しているとは限らない。人間の赤ん坊を窓のない箱に閉じ込め、20年間テラバイト級のテキストだけを読ませたからといって、向こう側からうまく適応した人間が出てくると期待はしないだろう
これは根本的に脆弱で、良い汎化ではなく、呪文を壊す境界事例を手作業で覆い隠すことに依存している。そして境界事例は必ずまた現れる。
誰かが怒って書いたテキストを大量に学習したからといって、その怒りを生んだ内部状態が捉えられるわけではない。そうしたデータは存在しない。原因なしに結果だけがあるなら、ノイズから幻覚を予測するしかなく、最終的な結果は現実と説得力をもって相関しているように見えるが、なぜそうなのか分からないもっともらしいたわごとになる。
まるで視覚障害者に風景描写を大量に学習させつつ、緑とは何かをまったく分からせず、自然の中で茶色の隣によく出てくる何かだという例だけを与えるようなものだ。その人がある程度当てられると、私たちは本当に見えていると錯覚し、次には車を運転しろと言うようなものだ。
ディープラーニングのモデリング手法自体が概念的に間違っているわけではないが、データがほとんど完全なゴミに近いため、最終結果が予測も補正も難しい形で奇妙になる。結局、モデルが現実的に知り得る以上のことを知っていると仮定してしまう。
もちろん、数学や抽象プログラミングのように、データセットで領域全体を捉えられる場合もある。明確に定義された閉じたシステムでは、問題領域全体を覆う合成データを必要なだけ作れ、実際そうするとLLMは予想通りずっとよく機能する
「AIシステムを擬人化するな」がなぜ悪いのか説明してもらえるだろうか? その一方で、コンピュータを「寝かせる」「休止」「プロセスを殺す」「子」プロセス、「回収する」「エラーが何と言っている?」「
touch」のような表現は構わないのだから私にはただの言語であり、人が日常的に使う表現にすぎない
プロセスをkillしたと言ったからといって、プロセスが人間のようだとより強く信じるわけではない。明らかにそうではないからだ。しかしAIは人間のように聞こえるため、擬人化がそうした信念を強める可能性がある
だがこれは理解失敗の根でもある。「自分は見たものを知っている」と言ったGoogleエンジニアの準精神病的な反応、今では有名なKevin Rooseの記事、さらに最近ではRichard DawkinsがClaudiaに意識があるのは確実だとした痛ましい主張もそうだ。構造や機能を調べたからではなく、テキスト生成が人間的な親しみを生み、共感してしまったからだ
根底の意図についての回顧的分析のようなものはない。以前に出た単語列に基づいているか、いないかのどちらかであり、次の単語は純粋にその単語列の関数にすぎない
この「法則」は後者を防ぐためのものだ
擬人化の例は、LLMと実際に恋愛関係にあると信じる人たちだ
気に入った。この法則は、今日のAIツールに関する人間の責任の優れた倫理的基盤になる
だが、包括性も将来への備えもないまま範囲を狭めた倫理は、すぐにハックされ崩れる。倫理には完全な包括構造が必要で、そうでなければ法的・実務的なモグラ叩きや貝殻ゲームのようなごまかしに堕する。企業型であれ路上型であれ同じだ。第二に、「ロボット」が長く全面的に従属的な存在のままでいることはないだろう。
両方の次元を閉じるために、Personicsの三つの逆法則を追加できる。
人は他の存在の上に事実上自らを神格化してはならない。人は自分の行動の影響を自分自身や他者に対して隠してはならない。人はそれぞれの行動から生じる外部化効果を避け、是正することについて、完全な責任と説明責任を引き続き負わなければならない。
今日、人間がAIを道具として使う状況は、傘をロボット工学の逆法則へと縮小しようとする意図だ。しかし私たち自身を重要なアラインメントの努力に含めなければ、現在のサービス型AIから将来の独立した存在へ向かうAIをどう整合させられるのか分からない。人間をAIと一緒に含めれば、倫理的進歩のための設計上の三角測量にも役立つ。
新しい倫理体系の良いテストは二つある。(1) 今日のMetaを制御できるか? (2) 明日のAI運営Metaを制御できるか? 人間と自律的AIパーソナリティを一緒に閉じた範囲に入れれば、この二つは同じテストになる。どちらか一方でも失敗する体系は、改善なしにはほとんど価値がないだろう
「人間はAIシステムを擬人化してはならない」には同意するが条件つきだ。典型的な擬人化、たとえば自動生成テキストを個人の内的感情についての実際の報告として扱うケースを見たし、「トランジスタはニューロンに似ている」のような奇妙な形も見た
後者は、ベクトルデータベースや重みのようなものを人間的なインフラとして扱っている点で特に興味深く、どちらも擬人化を避けようとしていれば防げたはずの災害につながり得る。
だが、「擬人化するな」は良い助言のように感じられても、一般化された現象を人間にだけ属するものとして誤って扱う新たな失敗を生むことがある。こうした誤った警告原則は、動物行動を理解するときによく誤解を招く。恐怖、痛み、親族関係、感情経験のようなものを人間だけのもののように扱い、動物にもそうしたものがあると考えると「擬人化」だと片づけてしまう。実際には、その慎重さが動物の内面世界への共感を減らしてしまう。
だから、将来のあるAIが私たちに似た内面世界を持つ可能性や、意識を支える生物学的インフラと重要な面で似た構造を持つ可能性はあると思う。また、選好や意図について本当の報告が可能になるかもしれない。しかしそうした観察が真になるには、それぞれのインフラに固有の厄介な細部が一致していなければならない
責任の非委任は以前こう表現されていた
「コンピュータは決して責任を負えない。ゆえに、コンピュータは決して経営判断を下してはならない」
— IBM Training Manual, 1979
「AI生成コンテンツは、その文脈に適した独立検証なしに権威あるものとして扱われてはならない」という文言は、いつも興味深い
同じ意味をもっと簡潔に「すでに答えを知っている質問でなければAIに聞くな」と表現するのも聞いたことがある。
だとすると重要な疑問が生じる。これが本当なら、AIが質問に答える機能はいったい何なのか? 出力に依存できないのだから、どうせ確認しに行かなければならない。検索エンジンや通常の調査を使ってもまったく同じ結果が得られる。
こうした理由や他の多くの理由から、私はAIには何も聞かない
たとえば、自分がCRMを探しているとすら気づいていないまま、「Xをする無料ソフトを列挙して」と手探りで尋ねることができ、数分結果を眺めればよい。手動なら、自分が探しているのがCRMだと見抜くまでだけで10〜30分かかっただろう。
こういう質問は一種の擬似NP困難問題だと見ている。答えを見つけるのは遅いが、検証は速い質問だ