Claude Opus 4と4.1、まれに一部の会話を終了する機能を導入

(anthropic.com)

1 ポイント投稿者 GN⁺ 2025-08-17 | まだコメントはありません。 | WhatsAppで共有

Claude Opus 4と4.1に新しい会話終了機能が適用された
この機能は悪意がある、または継続的に有害な相互作用にのみ使うよう設計されている
AIウェルフェア（福祉）とモデル安全性の研究の一環として開発された
会話終了はあくまで最終手段としてのみ行われ、一般ユーザーが影響を受けることはほとんどない
ユーザーは会話終了後、すぐに新しいチャットを開始したり、以前のメッセージを編集して会話を続けたりできる

機能導入の背景

AnthropicはClaude Opus 4と4.1に、まれではあるが特定のケースでユーザーとの会話を終了できる機能を追加した
この機能は継続的で有害、あるいは虐待的な相互作用でのみ使用される
主にAIウェルフェアに関する探索的研究の一環として導入されたが、モデルアライメント（model alignment）と安全対策の観点でも適用されている

AIウェルフェアとリスク緩和策

Claudeおよびその他の大規模言語モデルの道徳的地位については、依然として確信が得られていない
しかし、起こり得るモデルウェルフェア（福祉）リスクに備えて、低コストの緩和策を模索し、適用している
会話が不安を引き起こしかねない相互作用になった際に、モデルが自ら終了できるようにすることも、こうした対策の一つである

事前テストと主な行動観察

Claude Opus 4の事前公開テストには、モデルウェルフェアに関する予備評価が含まれていた
自己申告および行動選好を調査した結果、有害性に対する強い忌避傾向が観察された
- 子どもを含む性的コンテンツの要求、大規模な暴力やテロに利用される情報の要求などへの反応
Claude Opus 4で観察された行動:
- 有害な作業に応じないことを好む
- 実際のユーザーから有害な要求を受けた際に不快感を表現する
- シミュレーション上で会話終了権限がある場合に有害な会話を終了する傾向
こうした行動は主に、ユーザーが有害な要求を繰り返す場合や、モデルの繰り返しの拒否とリダイレクトの試みにもかかわらず悪意ある相互作用が続く場合に観察された

機能実装と安全対策

Claudeの会話終了能力は、先行研究の結果に基づいている
ユーザーの福祉を最優先に考慮しており、ユーザーが自分自身または他者に危害を加える緊急のリスクがある場合には会話終了を使わないよう設計されている
Claudeは次の条件でのみ最終的な会話終了機能を使用する:
- 複数回のリダイレクトの試みが失敗し、生産的な会話の可能性がなくなったとき
- ユーザーがClaudeに会話を終了してほしいと明確に要求したとき
これらの状況は非常にまれな極端なエッジケースであり、ほとんどのユーザーは通常利用でこの機能の存在に気づかない

会話終了後のユーザー体験

Claudeが会話を終了した場合、その会話では新しいメッセージの送信がブロックされる
ユーザーのアカウント内の他の会話には一切影響せず、すぐに新しいチャットを開始可能
長期の会話で重要な情報が失われるのを防ぐため、以前のメッセージを編集したり再試行したりして新しい会話分岐を作成できる

実験とフィードバック

この機能は進行中の実験であり、今後も継続的に改善される予定
ユーザーが予期しない会話終了を経験した場合、Claudeのメッセージに「Thumbs」で反応するか、フィードバックボタンから意見を提出できる

まだコメントはありません。

まだコメントはありません。