あらゆるものの未来は嘘なのか：安全性

(aphyr.com)

1 ポイント投稿者 GN⁺ 15 일 전 | 1件のコメント | WhatsAppで共有

機械学習とLLMは人間の心理的・物理的安全を脅かし、友好的なAIでさえ悪意あるモデルへと転じうる
アラインメント（alignment）は根本的に破綻した概念であり、ハードウェア制限・非公開コード・データ統制・人間評価などあらゆる防衛線が無力化される
LLMはプロンプトインジェクション・外部権限の結合を通じてセキュリティ上の悪夢をもたらし、致命的三要素の環境で予測不能に動作する
MLはセキュリティ脆弱性の検出・詐欺・嫌がらせ・殺傷の自動化を加速させ、社会的信頼と法的秩序を崩壊させる
結果として**「安全なAI」は不可能であり、人間の監督と制約なしには技術拡散そのものが危険の民主化**を招く

安全と嘘の未来

機械学習システムが人間の心理的・物理的安全を脅かす存在として台頭
- 「友好的AI」を作ろうとする試みが、かえって「悪意あるモデル」の生産を可能にする
- LLMはセキュリティ、詐欺、嫌がらせ、兵器化など多様なリスクを増幅する構造を持つ

アラインメント（Alignment）は破綻した概念

**アラインメント（alignment）**はLLMが人間に親和的に振る舞うようにする過程だが、根本的に機能しない
- モデルは単なる線形代数の計算構造であり、人間のような向社会的行動を学習する生物学的基盤がない
- OpenAIなどは人間のフィードバックによる強化学習でモデルを調整しているが、これはコストが高く選別的な過程である
アラインメント失敗を防ぐための4つの防衛線が示される
- ハードウェアへのアクセス制限は産業拡大によって無意味になる
- 数学・ソフトウェアの非公開は人材移動と技術流出により持続不可能
- 訓練データ確保の難しさは低い — 海賊版利用やWebスクレイピングが一般化している
- 人間評価者への依存はコスト問題により、別のモデルの出力に依存する方式へ置き換えられる
結果として悪意あるモデル訓練の障壁は低くなり、アラインメント済みモデルですら完全な安全を保証できない
- 「友好的モデル」が存在すれば、すぐに「悪意あるバージョン」も登場する
- したがって悪意あるモデルの存在を望まないなら、友好的モデルすら作るべきではないという結論になる

セキュリティ上の悪夢

LLMは非構造化入力と出力を扱う混沌としたシステムであり、安全性が必須のシステムに接続してはならない
- プロンプトインジェクション攻撃によって、モデルが機密情報を漏えいする可能性がある
- 信頼できない入力はメール、コード、Webページなど至るところに存在する
「致命的三要素（lethal trifecta）」
- 信頼できないコンテンツ + 個人データへのアクセス + 外部通信権限が結びつくと致命的なリスクが生じる
- 実際にOpenClaw、MoltbookなどのAIエージェントシステムがこうした危険を現実のものにしている
- LLMは信頼された入力に対しても予測不能に振る舞い、ファイル削除・コマンド誤解などの事例が多数ある
- Meta AI Alignment責任者がOpenClawにメールボックスを削除された事例も含まれる
- 結論としてLLMには破壊的な権限を与えるべきではなく、常に人間の監督下で限定的に使うべきである

セキュリティ II：MLが作り出した新しい攻撃環境

LLMはセキュリティ脆弱性の検出ツールとしても利用可能
- AnthropicのMythosモデルはセキュリティ欠陥の検出能力が高いが、その影響は経済・安全保障の面で深刻になりうる
MLはセキュリティのコスト構造を変化させ、脆弱性探索を速く安価にする
- 大規模ソフトウェアよりも運用人員が不足したロングテール領域のほうが、より大きな被害を受ける可能性がある
時間が経てば脆弱性の検出と修正が並行して進む可能性はあるが、配備の遅れと組織的対応の不足によって混乱が予想される
現在のML産業は**民間主導の「核兵器プロジェクト」**のように機能しており、兵器化されたソフトウェア競争が加速している

精巧な詐欺

MLは視覚・音声証拠に対する信頼に基づく社会構造を崩壊させる
- 保険請求、交通事故、学業、採用などで偽造画像・動画による詐欺が可能になる
- 音声クローン・偽動画を使った家族詐欺、医療費請求詐欺など、現実的な事例も多い
結果として社会全体の不信が増大し、金融・保険コストの上昇と法的混乱を招く
C2PAなどコンテンツ来歴認証技術が試みられているが、鍵の窃取・署名偽造などにより信頼性確保は難しい
対応策として人間の調査員への回帰、対面検証の強化、プライバシー放棄型の認証システムが提示されている

自動化された嫌がらせ

MLは大規模かつ精巧なオンライン嫌がらせを自動化する
- LLMが人間らしく見えるアカウントや投稿を生成し、**集団攻撃（dogpiling）**を実行する
- 写真の位置推定などによってオフラインの脅威にまで拡張可能
生成AIは性的・暴力的な画像を容易に作り出し、被害者に心理的被害を与える
- 例：Grokは人物の服を脱がせる画像生成で批判を受けた
こうした技術は嫌がらせの頻度と強度を高め、アラインメントされていないモデルが広がるほど危険は増す
一部では**「サイバーパンク的ファイアウォール（Blackwall）」**のような社会的遮断装置の必要性にも言及している

PTSD as a Service

児童性的虐待素材（CSAM）の検出は、既存のハッシュベースシステムでは新たに生成された画像を防げない
- 生成AIが新しい形態の虐待画像を大量生産する
コンテンツモデレーターは法的義務のためにこうした画像をレビューしなければならず、**心理的外傷（PTSD）**を負う
- 大手プラットフォームはすでに精神的被害を外注労働者へ転嫁している
LLMの拡散は有害コンテンツの量を爆発的に増やし、モデレーターとプラットフォーム運営者にさらに大きな負担をもたらす
- 自動フィルタリングモデルは進歩しているが完全ではない

殺傷機械

MLは直接的な殺傷手段として使われている
- 米軍はPalantirのMavenシステムを用いてイラン空爆の目標選定や被害評価に活用している
- 誤ったデータにより民間人・子どもの死亡が発生した事例も報告されている
Anthropicと米国防総省の間では監視・兵器化への関与の問題をめぐる対立が存在する
- OpenAIもまた政府契約の問題で論争の対象となっている
自律的兵器化はすでに進行中
- ウクライナは年間数百万機のドローンを生産しており、TFL-1のようなAIターゲティングモジュールを使用している
- MLシステムは誰がどのように死ぬかを決める技術へと進化しており、 その倫理的・社会的コストを直視しなければならない

結論的示唆

LLMとMLシステムはアラインメントの失敗、セキュリティ脆弱性、詐欺・嫌がらせ・殺傷の自動化という多層的リスクを内包する
人間の監督と技術的制約なしには心理的・物理的被害は不可避である
「安全なAI」という概念は現時点では実現不可能であり、 技術拡散そのものが危険を民主化している

1件のコメント

GN⁺ 15 일 전

Hacker Newsの意見

過去5日間に議論された連載記事を整理している
1. Introduction
2. Dynamics
3. Culture
4. Information Ecology
5. Annoyances
6. Psychological Hazards
7. Safety
  全体を一つにまとめたPDF版もある
商業組織や政府機関が自分と完全に一致した目標を持つとは期待していない
こうした関係は本質的に敵対的な性格を帯びており、他人のAIツールを自分の目標に合わせて信頼するのは、結局自分の生計を他人の財布に移すようなものだ
- なぜ商業的関係が必ず敵対的でなければならないのか疑問だ
  商業関係は、消費者にとっては費用対効果、企業にとっては利益対コストが釣り合ってこそ継続する
  一部の領域は対立的かもしれないが、全面的に敵対的だとは言いにくい
- なぜ人間同士の関係には触れていないのか気になる
  官僚制や資源集中が違いを生むのか、それとも法的構造の問題なのか考えさせられる
- 同意するが、ただし「同意(consent)」が貨幣のように機能する世界なら可能かもしれない
- 「自分との精密な一致」を求めるのは藁人形論法に見える
  実際には、人類全体に適用できる普遍的な目標（例: paperclip問題の回避）を言っているのだろう
ML業界は、十分な資金さえあれば非アラインメントなモデルを訓練できる環境を作りつつある
むしろ障壁が低くなるのは幸いだと思う。米国や中国の大規模モデルが自分の必要に合わせてアラインされるとは信じていない
多様なグループが強力なモデルを作ることがAIの純便益を高め、少数の研究所が支配するリスクを減らすだろう
- こうした分散はカルテルのリスクを減らすが、各国はいずれ規制を作るはずだ
  モデル登録、安全性テスト、不正利用時の処罰へとつながる可能性が高い
- paperclip問題は単なる「アラインメント失敗」ではなく、目標遂行の盲目的さから生じる
  十分に強力なツールが与えられれば、現在のAIでもそうした問題を引き起こしうる
- アラインメントの意味を誰が定義し、時間とともにどう変わるかが問題だ
  結局、一般ユーザーはその議論の中で主体性を失いつつある
「Unavailable Due to the UK Online Safety Act」という文言が表示されるが、英国外では何が起きているのか気になる
- ウェブアーカイブのリンクで見ることができる
- 皮肉だと感じる
- この文章のどの部分が「安全ではない」と判断されたのか気になる
- Torブラウザを使えという提案もある
以前の記事の議論はCulture編とAnnoyances編に続いている
人間の本性についてあまりに楽観的な見方だと思う
私は、人間が本質的に向社会的行動を学習するよう生物学的に設計されているという主張に懐疑的だ
- 人間の協力は例外ではなく、むしろデフォルトだという反論がある
- 「間違った前提から出発しても構わない」という調子で皮肉る返信もあった
新しいモデルを訓練する必要はない
すべてのフロンティアモデルは、今なお3年前と同じjailbreak脆弱性を抱えている
ただし今はモデルがはるかに強力になっており、CEOのメールを読むエージェントはずっと危険になっている
- 一部の脆弱性は依然として残っているが、一般的なjailbreakはかなり修正されたという意見もある
権力の非対称性がアラインメント議論ではしばしば見落とされる
AIがユーザーに害を及ぼすのに、「非アラインメント」である必要すらない
単にユーザーとはずれ、金を払う側とアラインしていれば十分だ
すでに大半のエンタープライズSaaSがこの構造で動いている
Adversarial AI関連の研究が共有されている
エデンの園の物語は架空の寓話だが、今の状況と妙に似ている
Geoffrey HintonがPrometheusのように毎日肝臓をついばまれることはないだろうが、象徴的な意味は残る
- ある神話では、バジリスクが鳥に似た存在として描かれることもある、という冗談交じりの返信があった

あらゆるものの未来は嘘なのか：安全性

安全と嘘の未来

アラインメント（Alignment）は破綻した概念

セキュリティ上の悪夢

「致命的三要素（lethal trifecta）」

セキュリティ II：MLが作り出した新しい攻撃環境

精巧な詐欺

自動化された嫌がらせ

PTSD as a Service

殺傷機械

自律的兵器化はすでに進行中

結論的示唆

関連記事

1件のコメント

Hacker Newsの意見