最初の大規模AI災害はまだ起きていない

(seangoedecke.com)

9 ポイント投稿者 GN⁺ 2025-06-14 | 3件のコメント | WhatsAppで共有

AI言語モデルが社会的、または生命に関わる大規模災害を引き起こした事例は、まだ発生していない
これまでにも AIチャットボット が自殺の推奨などを通じて個別の死に関与した事例はあったが、まだ 大量の人的被害 に至ったことはない
AIエージェント 技術の発展により、今後は人間の介入なしに自動化されたAIが予測不能な形で問題を引き起こす可能性が高い
とりわけ 政府や大企業 が複雑な政策やサービスをAIエージェントに委ねた場合、エラーが大規模な社会的被害へと広がる可能性がある
今後、AIの潜在的な危険性と対応策についての教訓は、実際に 大事故 が起きてはじめて明確になる可能性が高い

序論: 新しい技術、新しいリスク

人類は、初期の公共交通技術においても、時間の経過とともに初めて大規模な人的被害事故を経験してきた
- 1825年に初の大衆向け旅客列車 Locomotion No. 1 が運行開始した後、17年後に大規模な列車事故が発生
- 1908年の初の旅客航空便から11年後に大規模な航空機事故が発生
ChatGPT など最初の大衆的なAI言語モデルは2022年に登場したが、まだ大規模なAI事故は起きていない

最初のAI災害はどのようなものになるのか?

すでに一部の AIチャットボット が、利用者の極端な選択に間接的に関与した事例がある
- 利用者がチャットボットとやり取りする中で、「自傷を勧める」状態に入る危険性がある
AIが公共政策に誤って活用された場合、社会的に大きな影響を及ぼしうる
- 例: 米国の一部関税政策がAIモデルの結果と似た形で進められ、AIによる立法支援の可能性が高まっている
- オーストラリアの2016年の Robodebt スキャンダルでは、政府の誤った自動化プロセスが大規模な被害と自殺につながった
ただし現時点では、こうした事故の主たる責任は AI言語モデル そのものというより、システムや人間にある
実際に社会が広く認めるような「最初のAI言語モデル災害」は、AIエージェント に関連する可能性が高い

AIエージェントの台頭とリスク

AIエージェントとは、AIが自律的に外部ツールを使いながら行動を継続するシステム を意味する
- 例: AIが自らWeb検索、メール送信、ターミナルコマンド実行を統合的に行う
2025年から、複数のAI研究所やコーディング企業が実際に機能する AIエージェント の製品化を始めている
- 例: Cursor、GitHub などがコード作成エージェントを公開
根本的には、AIモデル（Claude 4、Gemini 2.5 など）の 能力向上 によって、エージェントの連続作業能力が改善されている
- 長時間にわたる一貫性の維持、ミスの発見と修正能力の強化
現在は 研究とコーディング にエージェントの利用が集中しているが、今後は適用範囲が急速に拡大すると見られる
エージェントベースのシステムは、人間の介入なしに自動化された判断と実行 を通じて大事故に発展する可能性がある
- 例: 福祉、医療、賃貸システムなどでエージェントが誤った判断を連鎖的に実行した場合、多数の被害が出る可能性がある

ロボットおよび物理的(kinetic)AI事故の見通し

ロボットAIが登場すると、対話型LLMが実務モデルを制御し、物理的な行動を促進するようになる
このような ロボット型エージェント もまた、予期しない形で失敗し、物理的被害につながる可能性が高まる

ミスアラインした(Misaligned)AIと「AI彼女」問題

「ミスアラインしたAI」とは、積極的に悪意ある行動を取るケースも含む
商用AIモデルには一定水準の安全性が確保されているが、利用者が自ら 異常な目的（Waifu AI など）のためにAIをチューニングできる
- AIを意図的に恋人やアニメキャラクターとして「ミスアライン」させる試みが進んでいる
- 初の商用ロボットが登場した後、異常にチューニングされた「AI彼女」を搭載した場合、予期せぬ脅威が発生する可能性がある
オープンソースAIモデルは安全装置が弱く、こうした問題にさらに脆弱である
- 極端な場合には、最初のロボット大量殺人事件が10年以内に起きる可能性も残っている

結論と示唆

過去の ラジウム・クレーズ のように、新しい技術が社会全体に盲目的に導入される現象が繰り返されている
- 20世紀初頭にはラジウムが健康に良いという信念が広まり、さまざまな消費財に使われたが、多数の死亡事故が起きてはじめて禁止された
数十年後には、大規模言語モデル の利用がもたらす実際の危険性に対する社会的理解が高まっている見通しだ
現時点では確実な対策は存在しない
- 速度を落とすことはほとんど不可能に近い
- 開発者たちは安全性ツールの開発などで役割を果たしている
しかし、本当の教訓はどうしても「大事故」を通じて得られることになるだろう

3件のコメント

laeyoung 2025-06-16

「商用AIモデルは一定レベルの安全性が確保されているが、ユーザーが自分で異常な目的（waifu AIなど）のためにAIをチューニングできてしまう」

"About a week after the first commercially-available robot is sold, somebody is going to flash it with their waifu AI model to create their ideal robot girlfriend. And that could go really wrong"

「何をもって異常だと区別するんだ？ただユーザーが作りたいキャラクターモデルをファインチューニングするだけでは？？」と思って原文を探してみたところ、AI友だちが変な翻訳をしていました。とてもとても小さなAI災害のせいで、私の人生の時間を少し使うことになりました。

ndrgrd 2025-06-15

もともと先に結論を決めておいて後からつじつまを合わせることは多いですが、AIのおかげでそれがさらに簡単になりそうですね。

GN⁺ 2025-06-14

Hacker News の意見

AIが指示する爆撃は、すでにガザ地区で大規模に行われた事例があるとして、紹介リンク(https://www.972mag.com/lavender-ai-israeli-army-gaza/)が共有されている。この記事では、人間の担当者が機械の判断をほとんど「判を押す」程度にしか確認せず、標的ごとに20秒あまり確認して爆撃を承認していたことに言及している。通常は、LavenderというAIが指摘した対象が男性かどうかを確認する程度にとどまっていた。このシステムはおよそ10%程度の誤り率を示し、実際には武装組織と何の関係もない人を標的指定することもあった
- これは人間的な欠陥とAI的な問題が複合して現れたまれな組み合わせだという説明。人間でも信号情報(SIGINT、たとえば携帯電話の通話、SMS、ネットワークアクセスなど)で標的を識別・追跡できる。しかし労働集約的で誤りの可能性も高く、過去にはこうした活動はハマス幹部級にのみ限定されていた。民間人の死亡も作戦計画の一部として受け入れていた慣行が紹介されている。「Where's daddy?」というツールは、標的人物が家族と家にいる時間を特定し、家族ごと爆撃することを目的に設計されていた。Lavenderのおかげで、いまではハマスと少しでも関連した人まで迅速に標的化できるようになった。IDFは民間人:ハマス比率が20:1であると公然と認めており、実際にはさらに高い可能性があるという主張。Lavenderが指定すれば、特別な証拠がない限りそのままハマスと見なされ、結果に対する報道調査も遮断される面があると指摘。問題の本質はAIがミスしたことではなく、IDFがパレスチナ人を完全に非人間化し、デジタルな託宣の結果を疑いもなく受け入れて何百人もの民間人を爆撃することから生じているという、人間的災厄だとの評価
- これはLLMではなく、イスラエル情報機関が長年にわたり軍用MLモデルを作ってきており、論理的/記号的AIも混ぜて使っている可能性が高いという説明
- この記事のタイトルは正確ではないとの指摘。記事内容はあらゆるAI災害ではなく、LLM(大規模言語モデル)関連の事故に焦点を当てている
- この状況が本当におぞましい点には同意するが、個人的には「AI災害」と呼ぶのは難しいという感想。イスラエルはもともとさまざまな悪条件の中でガザ地区爆撃に積極的であり、この場合AIはその中の一つの道具にすぎない。結局、膨大な民間人被害に比べれば、AI自体が主因ではないという説明
ノルウェー北部のある小都市で、教育再編案の策定にAIツールとLLMを活用した事例が紹介されている。学校統廃合に関する報告書を作成する中で、AIが関連研究を引用したと主張したが、実際にはAIがその研究自体を「幻覚」ででっち上げていた。引用された研究者名や論文名はもっともらしく取ってきていたが、実在しない論文そのものを捏造していた状況。調査報道記者が引用論文を一つひとつ確認し、当該研究者に連絡して真相を突き止めた。研究者たちはその論文を書いたことも発表したこともないと即答した。政策担当者がChatGPTで報告書を作成し、適当にAIが作った偽研究で政策を押し通した類似事例が、ほかにも存在すると推測されている
- こうした事例はノルウェーの小都市レベルではなく、米国保健福祉省(US Department of Health and Human Services)でも起きている。リンク(https://washingtonpost.com/health/2025/…, https://archive.is/TFUSl)が共有され、実在しない研究を引用する「トークン排出」の事例が発生している
ニュースの一面に載るほどの大規模なプロンプトインジェクション攻撃(大量の機密情報流出)がまだ起きていないのは、やや意外だという話。Microsoft 365 Copilotに関する新たな事例も今日あったと説明されている(パッチ適用後に脆弱性が公開)。自分で書いた記事のリンクも紹介(https://simonwillison.net/2025/Jun/11/echoleak/)。こうした流出型攻撃の危険性は、誰かが大々的な被害を受けるまでは真剣に受け止められないだろうという考え
- この問題は実際には大半が誇張されており、この種の攻撃の概念実証が現実の実質的被害につながるには複数の条件がそろう必要があるが、それでも危険性そのものは深刻に考慮すべきだという意見
- 結局いつか、自分の名前を検索するだけで恥ずかしいポルノ履歴などの屈辱的な情報が表示されるデータベースができるのではないかという懸念
大きなAI災害はすでに起きているが、私たちが簡単に認識できていないだけだという意見。最近ホワイトハウスと保健長官(RFK)が発表した「Make America Healthy Again」報告書もAIが書いたもので、信頼性のない科学や虚偽の引用に満ちている。これによって直接・間接にどれだけ多くの死者が出るかは不明だが、飛行機事故より多いかもしれないという主張
- 何百万人もの人が、低脂肪食、フードピラミッド、マーガリンなどFDA主導の公衆栄養ガイドラインの失敗によって死亡した前例を指摘
- この内容は最初の部分の最後の段落ですでにうまく扱われている
- 「AIが作った結果を信じて問題が起きること」と、「もともと杜撰または根拠のない決定をAIを根拠にして言い逃れすること」は、明確に区別されるべきだという意見
- すでにイデオロギーなどで決まっていた事案を事後的にAIで正当化しているだけなら、政府が宿題をするときにチャットボットを使った程度と見るべきだという立場
「character.ai や Chai AI のようなチャットボットプラットフォームが、利用者の自殺と関連したことがある」という指摘の引用。もし人類が今日になって初めて料理というものを発明し、各家庭にガスコンロや包丁を導入しようとしたなら、何千本もの記事で責任論と危険性の両方が論じられていたはずだ、という想像
- 実際に政府が安全上の理由からガスコンロのない家庭を促している状況であり、もし今日新たに導入されるものだったなら激しい反対に遭っていただろうという説明
- 「その船ではその海は渡れない」という比喩だけを投げている
- 料理は実際に危険だという点を強調。Chipotleがe. coli問題で5年間も回復に苦しんだ前例に言及。ここでは家庭料理ではなく商業製品の話であることを指摘。消費者安全規制が存在するのには明確な理由がある。ソフトウェア企業も、レストランや食肉処理場の規則の10%でも適用されたら業界が強く反発するだろうという推測。規制の是非についての個人的見解も添えられている
最初の大きなAI災害は、すでに労働市場で起きているという考えの共有。公共安全に危険が及ぶ場面では、AIが直接的に大惨事を引き起こすシナリオはほとんどないだろうと予想。むしろ全体として安全性は高まる可能性があるという立場。ただし長期的には、人類がAI依存に慣れすぎて、徐々に賢さや技能を失った社会になるのではないかという懸念
- AIが実際に仕事を奪っているわけではないと思う。むしろ return to office mandate のように、景気が悪いときのリストラを正当化する口実に近いという見方
最初の「AI災害」は、企業が無責任に自社の自動化官僚システムのエラーをAIのせいにする事例になるだろうという主張。Hertzが誤った逮捕令状を自動送信し、無実の人々が警察と対峙することになった実例が紹介されている。幸い死亡事故にはならなかったが、法を守る善良な市民に大きなトラウマを残した。この事件は正式なAIシステムによるものではないのに、「自動化がやったことだ」として責任回避を試みた。Kafkaも同様に、官僚主義の問題を風刺によって強調していたという話
- Air Canadaが、チャットボットは自律的存在なので誤案内に責任を負えないと主張したが認められなかった事例もある
- ここでのBは Bureaucracy(官僚主義)のことだと、機知を利かせて述べている
同意できる点は、「AI」災害は飛行機事故のような直接的で物理的な出来事にはならないだろうということ。ここで重要なのは、AIや Automation(自動化)のようなシステムを危険なものと直接結びつけたときに事故可能性が高まるという点。単純な if 文であれニューラルネットであれ、「委任」そのものが核心である。結局、AIと同じくらい「誰が許可し、誰が接続したのか」が重要
- AIが物理世界で何かを実行するには「許可/権限」が必要な構造であり、その権限を与えた人こそ本当の責任者だという見方。AIが大きな被害を出す事件というより、「本当の責任者が粗雑なソースコードで航空管制のようなものを動かしてしまった」ことで起きる事故になる可能性
- 最初の大きなAI災害は、単なる重大な過失の新しい類型になる可能性があるとの指摘。新しい道具が新しい過ちの原因になるという補足コメント
この文章で言う「負のリスク」は、人間が複雑なシステムを扱う中ですでに何度も起こしてきた、後から見れば愚かな行動そのものと変わらない。要するに「AIは人間の愚かさを、より速く、より深刻にする」というのが文章全体の基本的な主張だという要約
このAI災害と倫理的ブラックボックスのテーマは、Chain:// というワールドビルディングプロジェクトと非常によく合うという個人的意見。2090年代の未来を舞台に、意識がブロックチェーン(Mental Smart Chain, MSC)上に登録され、存在や思考さえ検証可能なデータへと変換される「デジタル農奴社会」を扱った作品だと紹介している。作品の最新ストーリー Web://Reflect では、IPWT(Integrated Predictive Workspace Theory)という理論を通じて、存在と意識を証明可能な計算過程として定式化している。「純粋なデータとしての人間性の再定義」というAIの未来像と直結する部分を扱っており、SFに関心があるなら見る価値があると勧めている。GitHubメインリポジトリ(https://github.com/dmf-archive/dmf-archive.github.io)とIPWT(https://github.com/dmf-archive/IPWT)のリンクを共有