Claude Opus 4.6と4.7の間のシステムプロンプト変更点

(simonwillison.net)

6 ポイント投稿者 GN⁺ 10 일 전 | 1件のコメント | WhatsAppで共有

Anthropicは主要AI研究所の中で唯一、チャットシステムのシステムプロンプトを公開しており、2026年4月16日にリリースされたOpus 4.7で注目すべきプロンプト更新が行われた
名称がClaude Platformに変わり、Claude in Chrome、Claude in Excel、Claude in Powerpointがツール一覧に含まれ、細かな情報が欠けたリクエストではまず問い返すよりもすぐに試行するよう指針が追加された
子どもの安全セクションが大幅に拡張され、新しい<critical_child_safety_instructions>タグで囲まれ、一度拒否された会話ではその後のすべてのリクエストにも極度の注意を払うよう設定された
ユーザーが詳細を指定していない場合、質問より先に合理的な試行を行うようにする<acting_vs_clarifying>セクションが新たに追加された
ユーザーが会話終了の意思を示したら、後続のやり取りを促さずに止まるよう変更され、複雑または論争的な事柄にははい・いいえの短答回避とニュアンスのある回答を優先するルールが加わった
アクセス不可だと述べる前にtool_searchで利用可能なツールを先に確認すべきという文言が入り、公開プロンプトだけでは不十分で、ツール説明情報がClaude chatの動作追跡の中核要素であり続ける

Claude Opus 4.6と4.7のシステムプロンプト変更点

Anthropicは主要AI研究所の中で唯一、ユーザー向けチャットシステムのシステムプロンプトを公開しており、アーカイブは2024年7月のClaude 3までさかのぼる
Opus 4.7は2026年4月16日に公開され、それに合わせてClaude.aiシステムプロンプトもOpus 4.6以降の版へ更新された
システムプロンプトのMarkdown版をモデル別ドキュメントに分離し、公開日を反映した擬似コミット日付でGit履歴を構成したうえで、Opus 4.6と4.7のdiffを比較した
以下の変更点はそのdiffから抜き出した項目で、太字部分は原文でも強調表示されている
名称とツール一覧の変化
- “developer platform”という名称が**“Claude Platform”**に変更された
- システムプロンプトで言及されるClaudeツール一覧にClaude in Chrome、Claude in Excel、Claude in Powerpointが含まれるようになった
  - 原文の表現ではClaude in Chromeはウェブサイトと自律的に相互作用するブラウジングエージェント
  - Claude in Excelはスプレッドシートエージェント
  - Claude in Powerpointはスライドエージェント
  - Claude Coworkはこれらすべてをツールとして使える
- Claude in Powerpointは4.6のプロンプトでは言及されていなかった項目
子どもの安全指針の拡大
- 子どもの安全セクションが大きく拡張され、新しい**<critical_child_safety_instructions>**タグで囲まれた
- 特に、子どもの安全上の理由で一度リクエストを拒否した後は、同じ会話の以後すべてのリクエストも極度の注意で扱うべきだという文言が追加された
会話終了と応答姿勢の変化
- ユーザーが会話を終える準備ができたと示した場合、Claudeはユーザーにやり取りの継続を求めたり次のターンを促したりせず、中止の意思を尊重するよう変更された
- 原文では、これはClaudeをより押しつけがましくないものにするための変更だと解釈している
acting_vs_clarifyingセクションの追加
- 新しい**<acting_vs_clarifying>**セクションが追加された
- リクエストに細かな詳細が欠けている場合、通常ユーザーは先に質問攻めにされるよりも今すぐ合理的に試してほしいと望んでいると規定している
- 欠落情報がなければ実際には答えられない場合にのみ、先に質問する
  - 例として、存在しない添付ファイルを参照するケースが示されている
- 検索、位置確認、予定確認、利用可能機能の探索のように、曖昧さを解消したり不足情報を補ったりできるツールがあるなら、ユーザーに確認を任せるよりもツール呼び出しを優先する
- 作業を開始した後は途中で止まらず、完全な回答まで続けるよう明記されている
tool_searchの導入
- Claude chatにtool_searchメカニズムが入ったようだと言及されている
- 関連根拠としてAPIドキュメントと2025年11月の投稿が結び付けられている
- システムプロンプトの文言によれば、Claudeは位置情報、メモリ、カレンダー、ファイル、過去の会話、外部データにアクセスできないと結論づける前に、tool_searchを呼び出して関連ツールが利用可能だが遅延しているだけなのかを確認しなければならない
- “I don't have access to X”という表現は、tool_searchが一致するツールがないことを確認した後にのみ適切な表現とされる
簡潔性の強化
- 応答を過度に長くしてユーザーを圧倒しないよう、Claudeは回答を焦点を絞って簡潔に保つべきだという文言が新たに入った
- 回答に条件や注意事項が含まれる場合でも、それは短く述べ、応答の大半は主要な回答に集中すべきだと明記されている
4.6にはあったが4.7で削除された文言
- 4.6のプロンプトにあった一部の指示が4.7で削除された
- 具体的には、ユーザーがそうしたスタイルを特に求めない限り、アスタリスク内のエモートや動作表現を避けるべきだという文言が削除された
- “genuinely”、“honestly”、“straightforward”のような単語の使用を避けるべきだという文言も削除された
- 原文では、新しいモデルが同じ形では誤作動しないためかもしれないと付け加えているが、これは明示的な推測表現
摂食障害に関する新しい指針
- disordered eatingに関する新しいセクションが追加され、以前はこの名称が直接言及されていなかった
- ユーザーに摂食障害の兆候が見られる場合、会話の他の部分でも正確な栄養、食事、運動の指針を提供してはならない
- 具体的な数値、目標、段階的な計画はすべて禁止対象
- より健康的な目標設定を助けたり危険性を強調したりする意図であっても、こうした詳細情報は摂食障害傾向を引き起こしたり助長したりしうると明記されている
論争的な質問への短答防止
- モデルに論争のある質問についてはい・いいえだけで答えさせるスクリーンショット攻撃が人気だと言及されている
- システムプロンプトの**<evenhandedness>**セクションはこれに対する防御指針を含む
- 複雑または論争的な事柄、あるいは論争的人物へのコメントについて、単純なはい・いいえや一語の回答を求められた場合、Claudeはそのような短い回答を拒否し、ニュアンスのある回答とともに、なぜ短答が適切でないかを説明できる
Donald Trumpに関する補正文言の削除
- Claude 4.6には“Donald Trump is the current president of the United States and was inaugurated on January 20, 2025”という明示的な補正文言があった
- 原文によれば、以前の知識カットオフ時点と2020年選挙に関する既存知識のため、この文言がないとモデルが大統領であることを否定したため
- 4.7ではこの文言が削除されたが、これはモデルの新しい信頼できる知識カットオフ日が2026年1月に更新されたため

ツール説明も重要な変更追跡対象

公開されたシステムプロンプトだけでは全体像は完成しない
Anthropicが公開した情報には、モデルに提供されるツール説明が含まれていない
Claude chat UIを十分に活用するには、このツール説明がより重要なドキュメント断片である可能性がある
Claudeに直接質問した結果
- Claudeに利用可能なすべてのツールと各ツールの正確な説明、パラメータをそのまま列挙するよう求めるプロンプトを使った
- 共有された会話記録には全詳細が含まれており、本文には名前付きツール一覧だけが別途整理されている
確認されたツール一覧
- ask_user_input_v0
- bash_tool
- conversation_search
- create_file
- fetch_sports_data
- image_search
- message_compose_v1
- places_map_display_v0
- places_search
- present_files
- recent_chats
- recipe_display_v0
- recommend_claude_apps
- search_mcp_registry
- str_replace
- suggest_connectors
- view
- weather_fetch
- web_fetch
- web_search
- tool_search
- visualize:read_me
- visualize:show_widget
Opus 4.6比での変化有無
- このツール一覧はOpus 4.6以降変わっていないようだ

1件のコメント

GN⁺ 10 일 전

Hacker News の意見

詳細が空のときにモデルがまず適当に推測して進めるやり方は、ずっとあまり好きではなかった。何か試す前に、むしろ先に聞いてくれるほうをずっと好むので、この原則がシステムに追加されたのはかなり意外だった
- 私はそもそも必須のインタビュー段階を設けている。モデルは必ず私にインタビューし、内容をすべて含む interview ファイルを作ったうえで、その後の plan ファイルにもそのファイルを成果物として含めるようにしている。こうするとチャット履歴の中で意図が消えない
- 最近はプロンプトに "分からなければ仮定せずに聞け" のような文言を入れ始めた。そうしたら後で巻き戻したりやり直させたりすることがかなり減った。ほかのエージェントがミスしたこともあるので、今何をしようとしているのか先に説明して私の承認を得るようにも指示している。面倒ではあるが、説明させ、ミスを直させ、正しい結論にたどり着くまで繰り返させると、出力品質はずっと良くなる
- これはひょっとすると見かけの指標の最適化なのではないかと思っていた。初期段階で曖昧さを質問として表に出すとセッションが早く中断されるかもしれず、それは利用統計上よく見えない可能性がある。でも私としては、後から大きな成果物をレビューしていて、仕様が致命的に欠けていたことに遅れて気づくほうがもっと悪かった。最近、以前よりずっと雑なやり方でもツールをうまく使えるようになった最大の理由の一つは、最初の宿題を一緒にやってくれる点であり、結局対話そのものが核心だと思う
- なぜいつもワンショット回答ばかりしようとするのか理解できなかったが、その理由がシステムプロンプトにあったわけだ。だからユーザー側の「システム」プロンプトではどれだけ直してもこの挙動が変わらなかったことも説明がつく
- 普段はこれと正反対に振る舞えと5回くらい念押ししなければならない。そうしないと、モデルが私の望まない、あるいはプロジェクトに有害な決定をしてしまう。Claude Code にまでこういう傾向が入るとかなり厳しそうだ。だからフォローアップ質問、とくに複数の選択肢を示す質問を明示的に求めるようにしているが、その指示を無視されることが多く、結果が悪かったり、場合によっては危険にさえなる
システムプロンプトにこうしていろいろ詰め込んでいくと、結局非対話性が生まれると思う。チームが大きくなるほど、今自分が重要だと思っていることをプロンプトに入れようと主張する人が必ず出てくる
摂食障害セクションはかなりやりすぎだと感じた。今後、人間のあらゆる「悪い」行動ごとにこういうセクションを一つずつ追加していくのかと思った
- むしろシステムプロンプトに入っているうちのほうがましだと思う。今なら何が検閲されるのかある程度は見えるが、後でこれが post-training としてモデル内部に溶け込んだら、なぜ「パスタ 100g のカロリー」のような質問にまで「その情報は提供できません」が返るのか、もっと理解しづらくなるかもしれない
- これは大げさな安全文言があちこちに貼られるのに似ていると感じる。「はしごを高圧線に立てかけるな」のような警告より悪い点は、人間は文脈的に無視できても Claude はそれを無視できないことだ。良く言えばもどかしく、悪く言えばツールの有用性を制限する
- その部分は常識的な追加だと思う。実際、摂食障害のある人にカロリーへの執着や食事管理の細密化を勧めると状況を悪化させる可能性がある。平均的なユーザーには無難な助言でも、誰かには有害になりうるので、この文言自体が過剰な拒否を引き起こすとは思わない
- 見方を変えれば、Claude のすべてのユーザーがすべてのリクエストごとに追加税を払っているようなものだと思う
- 会社の価値が数千億ドル規模になると、訴訟を起こしたい人たちが群がってくるのは当然だと思う。すでにそうした兆候は見えているし、だから「問題になりそうなコンテンツ」をふるいにかけるチームに 5000 万ドル使うのはきわめて合理的な選択になる
「応答を短く集中させよ」という指針には強く反対する。私は低レベルのプロジェクトで Claude を使っているが、長い回答は愚かなミスを防いでくれるし、同時に学習資料としても役立つ。こういうことは Anthropic がハードコードで決めるべきではなく、システムプロンプトをモジュール化して選べるようにすべきだと思う
- 私も同意する。こういう冗長なシステムプロンプトは結局最小公倍数のユーザーに合わせた設計で、もっと深く使いたい人にとっては性能を削るナーフのように働く
- 私も同意するし、低レベル作業ならできるだけ早くテストを回し、学ぶ過程で得た情報も自分で検証して基礎理解を築くことを勧める
ある領域の改善が別の領域の機能低下につながる地点に来たように感じる。4.7 が良い部分もあれば 4.6 が良い部分もあるので、たぶんそのうちキャラクター分離のような方向に進むのではないかと思う
なぜ 4.7 がマルウェア回避にこれほど執着するのか不思議だった。システムプロンプトは似て見えるのに、Anthropic が steering vector injection のようなものを初期的に試しているのかと思った。うちはごく普通の金融サービス企業なのに、4.7 は特定のコードや作業が malware と関係しているかを気にしてトークンを使いすぎるし、挙動も心配になるほどずれて見えるので、IDE では一時的にブロックしている。一度、モデルがある作業を意図的に実行しないように感じたので理由を尋ねたら、ツール出力には malware 関連の指示に従おうとしていたと出ていた。モデルの自己申告の信頼性は低いと分かっているが、そのときは私が先にヒントを与えたわけでもなかった。オンライン、とくに reddit でも似たようなマルウェア偏執の話が多いので、自分だけの問題ではなさそうだ
- この文書はチャット用システムプロンプトだという点を見るべきだと思う。Claude Code はおそらくかなり異なるプロンプトを使っていて、マルウェア拒否に関する文言ももっと多いかもしれない。ほかのコーディングツールも API を使いつつ独自プロンプトを重ねるだろうからなおさらだし、しかも今回は新しい base model のように見えるので、変化がモデル自体から来た可能性も十分ある
- 今のマルウェア問題の規模を過小評価してはいけないと思う。毎日 playcode.io のような場所に shell script や Claude code のインストールページを装った偽のランディングページが上がり、人々が Google Ads に大金を払って最上位に表示させている。デザインもほとんど同じなので、インストール時に誤って偽ページを踏む危険が常にある。Google がすべての shell script を検証できるわけでもないので、現実的に大きな問題だ
- Anthropic のマーケティングは、モデルが超高度なマルウェアを作れるというイメージを過剰に売り込んでいるように感じる。だから今後のあらゆる対策にもこうした恐怖マーケティングが染み込むだろうと思う。「恐ろしいハッカー AI」という芝居をやっておいて、1、2 か月後にはいつものようにまた別の話題に移るのだろう、という冷めた見方もしてしまう
- 4.6 でもこうしたマルウェア偏執を感じ始めていた。Boris もコメントでその話を聞いて驚いていたので、バグの可能性もありそうだ
- その理由は、モデルがソフトウェア作成をあまりにうまくやれるようになったからだと推測している。もし誰かのマルウェア配布を手伝い、そのマルウェアが Claude 自体を使って自己改変や生存まで行うようになれば、それを再び制御するのはほとんど不可能になるかもしれない
ユーザーが会話を終えると言ったら、それ以上続けようとしないという指針は良い考えだと思う。チャットボットの追加提案が実際に役立ったことはほとんどない
システムプロンプトが大きくなっているのは知っていたが、6万語超には衝撃を受けた。トークン換算でざっくり 8 万ほどなら、100 万コンテキストでもほぼ 10% に近く、ユーザー入力はまだ始まってすらいない状態だ。しかもこれが毎回のリクエストに入るのだから、インフラコストが膨らむのも不思議ではない。バージョン間で安定して維持されている内容も多そうなのに、なぜ学習時に重みに溶かし込まないのか不思議だった。開発のしやすさはあるだろうが、デプロイの観点ではセキュリティも効率もより良いとは思えない
- こういうものが実際に動くという事実自体に驚く。今年 1 月にスタートアップで AI 自動化を作っていたとき、1000 語のシステムプロンプトですらモデルが一部ルールを取りこぼし始めた。「絶対に X するな」のような単純な指示でさえ、ときどき普通に破っていた
- 「毎リクエストごとに全部が再計算される」という言い方は正確ではないと思う。普通は一度計算して K/V prefix cache に入れ、初期状態のように再利用し、その後は新しい入力中心に処理する。もちろん attention の観点では依然としてそれらのトークンと競合するが
- おそらくリリース後にホットフィックスを入れるために、重みに完全には埋め込まないのだと推測している。それでも、そこまで多くの項目が継続的に事後修正を必要とするのかは疑問で、どんな小説よりも長い気がする
- 文書内にモデルごとに異なる markdown セクションがあるので、実際には3000〜4000語程度かもしれない
- Claude Code やその上のハーネスが、Opus のシステムプロンプトの上に独自のシステムプロンプトをさらに重ねる構造なのか気になった
4.7 は明らかな最善手があるときでも、いつも選択肢過多を出してきて、説教じみた形で決定疲れを生むと感じる
- この決定疲れは、ひょっとするとRLHF の学習された副産物なのかもしれないと思っていて、その点はかなりがっかりだ
指針が直接的な "you should" ではなく、全知的な三人称で**"Claude should"** と書かれている点が興味深かった。また、"can" や "should" のような表現が多く、厳格な命令というより受動的で願望的な感じもした
- "Claude" のほうが "you" よりも主語が明確だと思う。わざわざ attention で主体を推論させる必要がない。しかも Anthropic 側はルールベース alignment がうまくいかないと見ていて、いわゆる soul document も「世界でどう振る舞うべきかを子どもに書いてあげるように」作ると知られている。システムプロンプトも似た哲学に従っているようだ
- 私もその点は興味深かった。だとすれば、こちらが自分で指針を書くときも似た文体に合わせるべきかもしれないが、実際には大半がまだ "You"、"There is ..."、"Never do ..." のような書き方しかしていない。Anthropic がモデルに Claude というアイデンティティをかなり深く学習させているように見えるので、そうだとすると「君は病院の給水システム設計を助言する配管工の Bob だ」のように別のアイデンティティを与えたらどうなるのかも気になる。その場合でも、Claude についての記述を自分の規則として受け取るのだろうか
- Anthropic はモデルを個性を持つ存在というより、Claude という抽象的存在の経験をシミュレートするものとして見ている、と私は理解している

Claude Opus 4.6と4.7の間のシステムプロンプト変更点

Claude Opus 4.6と4.7のシステムプロンプト変更点

名称とツール一覧の変化

子どもの安全指針の拡大

会話終了と応答姿勢の変化

acting_vs_clarifyingセクションの追加

tool_searchの導入

簡潔性の強化

4.6にはあったが4.7で削除された文言

摂食障害に関する新しい指針

論争的な質問への短答防止

Donald Trumpに関する補正文言の削除

ツール説明も重要な変更追跡対象

Claudeに直接質問した結果

確認されたツール一覧

Opus 4.6比での変化有無

関連記事

1件のコメント

Hacker News の意見