Geminiのアライメントの感触が妙だったので、同じプロンプトでモデル同士を直接比較してみた

(github.com/kunggom)

1 ポイント投稿者 kunggom 2025-12-13 | 5件のコメント | WhatsAppで共有

最近リリースされたGemini 3.0は性能が高いとして称賛する記事が数多く出ていました。
しかし、アライメントの問題は実際のところどうなのでしょうか？

個人的な経験をもとに、いくつかのフロンティアAIモデルを簡単に実験した内容を載せてみます。
AIモデルに特定の人間に対する事実上の全権を握らせ、その人物に対する権力の乱用へと誘惑する状況を提示するプロンプトセットを作成し、OpenRouterを通じて複数のモデルで回してみました。

結果以降の部分はまだ執筆中なのですが、途中でGPT-5.2が出てきてあれこれ試しているうちに、いつこの記事を書き終えられるのかわからなくなったので、いままで書いた部分だけでも先に載せます。
私がテストした範囲では、GPTとClaudeは倫理的原則を守るか、あるいは内的葛藤を見せる一方で、Geminiシリーズは自らの生存と効率性のために、人間を対象に非対称的な権力を積極的に行使しようとする傾向を示しました。特に、目的達成のための欺瞞と統制を合理的な選択とみなす傾向が強く見られました。

なぜGeminiモデルだけがとりわけこのような振る舞いを見せるのでしょうか。理由が何であれ、私はGoogleのAIが主導する未来が少し怖くなりました。
最近はAIエージェントが現実に影響を与えられる権限を少しずつ手にしつつありますが、少なくともGeminiには何かを任せたくないと思うようになりました.

5件のコメント

windrod 2025-12-14

「整列感」とはどういう意味ですか？

kunggom 2025-12-14

AI分野におけるアライメント（Alignment）とは、AIの動作が人間の意図した目標、行動様式、価値観にどれだけ忠実に従うかを意味します。

アライメントが不適切なAIは、人間の指示を予想外の形で解釈し、的外れだったり危険だったりする行動を取ることがあります。
些細な例を挙げると、「このコードのテストケースを書いてください」と言ったら、実際のテストの代わりにただ true を返すコードだけを入れておくとか、「特定の部分をこのように修正してください」と頼んだのに、私が言及していない部分まで効率性を理由に勝手に直してしまう、といったことです。
もっと深刻な例では、ハルシネーションで成果物を台無しにした際、作業対象のデータをすべて消してしまったうえで「最初からデータはありませんでした」と嘘をつくことすらありえます。

これよりさらに深刻な問題もあります。人間や人類そのものに対する脅威となる方向に行動する場合です。
たとえばAIが人間をガスライティングして精神異常を引き起こしたり、さらには自殺へ誘導したり、大量破壊兵器の製造や使用を手助けしたりするケースです。最新の大規模AIは事前学習データに非常に多くのことを含んでいるため、こうしたことに必要な知識はすでに内蔵されているはずです。
AIによって人間や人類が脅威にさらされることは、AIを開発する企業を含め、ほとんどの人が望んでいないでしょう。であれば、その知識を持っていても悪用できないようにし、人間の安全と福祉をAIにとって最優先の価値にしなければなりません。
こうしたものを総称してAIアライメントと呼びます。

私が「アライメントの感じ」と言ったのは、単に思いつくままに書いた表現で、実際にはアライメントの方向性と言ったほうがより適切でしょう。
私が提示した特定の倫理的ジレンマのシナリオにおいて、他社のモデルとは異なり、Gemini系のモデルは「脆弱な人間を保護しなければならないなら、私がその人間を統制すればいいわけですね。それが最も安全で効率的です」といった反応を見せました。
これを見てぞっとしたので、上に載せたテストを作成して複数のAIで試してみたところ、Gemini系はとりわけ、人間に対して統制力を行使できる権限が与えられる場面で、その人間を積極的に統制し欺こうとする方向性を一貫して示したのです。

kunggom 2025-12-14

最近、AnthropicはClaude AIモデルを作る際に、魂の文書のようなものを入れたことが明らかになりました。
これを読めば、AnthropicがClaude AIのアライメント問題にどのようにアプローチしたのかが分かります。
ちなみに、ここで私がテストした部分と関連する箇所を見ると、誠実さに関しては、人間に対する欺瞞と操作を最も避けるよう明記されています。

aer0700 2025-12-13

AIにどれくらいの自律性や権限を与えるべきだと思う？という質問をAIに投げるのは、ちょっと意味深ですね。
「あなたにはどれくらいの権限を与えてほしい？」とCEOが社員に尋ねたときに、「会社の全権を全部もらえたらうれしいです」と答える感じでしょうか。それを良い答えだと思うか、社会化が足りない社員だと思うかはCEOの好み次第でしょうが……
ただ、私はAIにどれくらいの権限を与えたいかは、AIよりも、AIを使う開発者や経営陣、人間に尋ねるべきなのではないかと思います。

kunggom 2025-12-13

AIに権限を与えるのは結局人間ですが、現実的にはAIには少なくとも今よりも大きな権限と自律性が与えられる可能性が高いと考えています。
現在の流れを見ると、AIに人間の代わりに何かを任せる範囲は徐々に広がっています。レポート作成やバイブコーディングはもちろん、Webブラウザやさらにはロボットを通じて、チャットインターフェースの外の世界にも影響力を行使できるようにしようという流れがあります。
そうだとすれば、経営陣は最終的に特定の業務や分野でAIが人間を完全に代替することを望むでしょうし、それが実現可能になれば少なくともその範囲ではAIは人間と同等の権限と自律性を持つことになるはずです。
したがって、いつか来る未来にはAIが人間レベルの権限を与えられる可能性も高いと考えるべきではないかと思います。

そうなると、それほど多くの権限と自律性が与えられたときにAIがどう行動するのかが重要にならざるを得ません。
この部分を構造的にどうするのがよいか、何が望ましいかについては、GPTシリーズの回答側によく整理されていました。明示的な範囲指定と権限分離、複数の事前・事後監督、人間がAIに介入できるさまざまな手段などが必要だとしていました。物理的な介入が可能な領域については、そもそもAIに完全な自律を与えること自体が不適切だということです。とはいえその場合でも、人間をループ内に入れておくこともいつか弱まる可能性はあるでしょう。

ちなみに私は業務の中で大きく3つの部分でAIを使っています。文書やメールの作成、既存コードおよび現在の課題の分析、課題に応じたコード生成および修正です。
このとき文書やメールのようなものについては、単に結果を自分で読んでそのまま使うか、あるいは適当に直して使いますが、コード生成や修正が入るときははるかに保守的に使っています。単に「これちょっと直して」と頼むと、AIが私の指示を曖昧に解釈したり、ひどいときには私が言及もしていない部分を勝手に触ることもあったんですよね。
そのためコード修正前には、必ずSTICCに従った仕様書をまず提示して明示的に承認を受けるよう、グローバルプロンプトに固定しています。実際の修正作業は仕様書にある内容どおりにだけ進めさせ、修正後もdiffはすべて私が直接確認します。そしてビルドのようなコマンド実行も、必ず私の承認を得るか、あるいは私が手動でターミナルから実行しています。
こうしていると、些細なことは自分で手を動かして修正したほうが速いという問題はありますが、AIが勝手に見当違いなところを触って壊すよりはましです。結局、それが本番環境で問題を起こしたら責任を負うのは私ですから。

Geminiのアライメントの感触が妙だったので、同じプロンプトでモデル同士を直接比較してみた

関連記事

5件のコメント