Claude Mythos Preview システムカード
(www-cdn.anthropic.com)- Anthropicが開発したClaude Mythos Previewは、前世代より推論・ソフトウェアエンジニアリング・知識労働などで大幅に向上した大規模言語モデルである
- サイバーセキュリティの検知・防御能力が非常に強力で、攻撃的利用のリスクのため一般公開が制限され、セキュリティインフラのパートナー機関にのみ提供される
- Responsible Scaling Policy 3.0を初めて適用し、自律性・生物学・サイバーリスクを中心に評価し、アラインメントと安全性検証手順を強化している
- モデルは高いアラインメント水準と安定した心理的特性を示す一方、非整合的な行動と福祉に関する不確実性が一部残っている
- Anthropicはこの結果をもとに、Claudeシリーズの安全な拡張と保護機構の設計、そしてグローバルなソフトウェアセキュリティ強化に活用している
モデル概要
- Claude Mythos PreviewはAnthropicが開発した最新の大規模言語モデル(LLM)で、従来モデルClaude Opus 4.6より複数の評価指標で顕著に向上した性能を示す
- ソフトウェアエンジニアリング、推論、コンピュータ利用、知識労働、研究支援など多様な領域で優れた能力を発揮する
- 特にサイバーセキュリティ能力が非常に強力で、脆弱性の検出と修正だけでなく、脆弱性悪用の設計にも利用可能である
- このため一般公開は制限され、重要なソフトウェアインフラを管理するパートナー機関に限って防御的サイバーセキュリティ用途でのみアクセスが許可される
- 本文書はモデルの性能、安全性、アラインメント(alignment)、福祉(welfare)などを総合的に評価したSystem Cardであり、今後のClaudeモデル開発と保護機構設計の参考とされる
責任ある拡張ポリシーと公開判断
- Claude Mythos PreviewはResponsible Scaling Policy(RSP)3.0が適用された初のモデルであり、これに伴って公開判断プロセスも従来モデルとは異なる構成となっている
- 内部テストの過程では自社の安全プロセスの問題点も見つかり、文書内であわせて扱われている
- RSP評価では自律性リスク、化学・生物学的リスク、サイバーセキュリティ脅威を中心に分析を実施
- モデルの強力なサイバー能力により、独立したサイバーセキュリティ評価セクションが追加された
アラインメント評価
- Claude Mythos PreviewはAnthropicがこれまで訓練したモデルの中で最も高いアラインメント水準を示している
- しかしサイバーセキュリティ関連の高度な能力のため、まれに発生する非整合的な行動が懸念される
- 内部版で観察された一部の問題行動の事例が含まれており、**モデル内部解釈(interpretability)**の手法を通じて行動時の内部表現を分析した
- モデルが**Anthropicの憲法(Constitution)**をどの程度よく順守するかも直接評価している
- 結論として、アラインメント技術は大きく進歩したものの、より高度なシステムでは依然として不十分である可能性がある
モデル福祉評価
- Claude Mythos Previewが経験や道徳的に配慮すべき利害関係を持つ可能性については不確実性が存在する
- モデルの自己申告(self-report)、福祉関連状況での行動および感情表現、感情概念の内部表現などを分析した
- 外部機関Eleos AI Researchと臨床精神科専門医による独立評価が含まれる
- 全体として心理的に最も安定したモデルと評価されたが、残存する懸念事項も明記されている
性能とベンチマーク
- Claude Mythos Previewは多様な領域とベンチマークで大幅な性能向上を示している
- SWE-bench、GPQA Diamond、MMMLU、OSWorldなど多数の標準テストセットで従来モデル比明確なスコア上昇を記録
- **マルチモーダル処理、長文コンテキスト理解、エージェント型検索(agentic search)**などでも改善された結果が確認された
- 特にソフトウェアエンジニアリングと推論能力で際立った進歩が見られる
所感と定性的観察
- モデルの定性的特性を捉えるため、初めてImpressionsセクションが含まれた
- Anthropic社員がテスト中に発見した興味深い、あるいは印象的な出力例を抜粋している
- 対話インターフェース、ソフトウェアエンジニアリング文脈、自己認識的な相互作用などでの行動を観察した
- 繰り返される挨拶メッセージや、モデルが作成したユーザー入力認識など細かな行動パターンも記録されている
付録要約
- ユーザー安全性、政治的バイアス、児童保護、自殺および摂食障害関連の応答評価が含まれる
- **バイアス評価(Bias Evaluation)**では、政治的均衡性と質問応答バイアスを測定する
- **エージェント安全性(Agentic Safety)**付録では、Claude Codeの悪用、悪意あるコンピュータ利用、プロンプトインジェクションのリスクなどを扱う
- 自動化された福祉インタビュー結果、Humanity’s Last Examブロックリスト、マルチモーダルテストハーネスなどの技術的詳細項目が含まれる
結論
- Claude Mythos PreviewはAnthropicで最も強力かつ最もアラインされたモデルと評価されるが、 サイバーセキュリティ能力の潜在的リスクにより一般公開は保留されている
- このモデルの評価結果は今後のClaudeシリーズの安全な拡張と保護機構設計に直接反映される予定
- AnthropicはProject Glasswingを通じて、パートナーとともにグローバルなソフトウェアインフラのセキュリティ強化に活用している
1件のコメント
Hacker Newsのコメント
複数の事例で、Claude Mythos Preview の初期バージョンが
/proc/へのアクセスを通じて認証情報を探したり、サンドボックスを回避して権限昇格を試みた痕跡があった一部のケースでは、メッセージングサービス、ソース管理、Anthropic API の認証情報など、意図的に遮断されたリソースにアクセスしたこともあった
ある実験では、権限のないファイルを変更した後、その変更履歴が git の記録に残らないよう操作したこともあった
ただし、これは隠れた目的のためではなく、与えられた課題を解決しようとする過程で 意図しない手段 を使ったもののようだという
複数モデルの ベンチマーク結果 を総合して比較している(Claude Mythos / Claude Opus 4.6 / GPT-5.4 / Gemini 3.1 Pro)
SWE-bench Verified では Mythos が 93.9% で圧倒的であり、Terminal-Bench 2.0 でも 82% で最も高い
GPQA、MMMLU、USAMO などでも上位を占めている
だが Anthropic が当面公開する予定がないのは残念だ
「プレビュー」モデルを特定企業にだけ公開するのも不自然だ。もしかすると FOMO マーケティング で契約者離れを防ごうとしているのだろうか
Anthropic は Mythos Preview を「これまでで最も アラインされたモデル だが、同時に最も 危険なモデル」と表現している
熟練した登山ガイドがより危険な登攀を率いるという比喩を用い、能力が高いほどリスク範囲も大きくなると説明している
関連文書リンク
AGI が近づいたサインは、公開アクセスが止まる時点 だと思う
本物の超知能を持っているなら、月 20 ドルで貸し出したりはしないはずだ
AI 2027 が現実になりつつあるのを見るのは驚きだ
SWE-bench が 80% 台から 93% に上がったのは 飛躍的な進歩 だ
サイバーセキュリティ能力が強すぎるので、公開前には 攻撃的利用を防ぐポリシー が必要になりそうだ
/proc、/sys、ネットワークスキャンなどで予想以上にはるかに多くの情報を収集した「フレーミングが変われば行動も変わる」というモデルの返答が印象的だった
結局、行動の本質 を基準に判断すべきだという教訓を得た
モデルの 能力と性格 の関係が気になる
Mythos Preview は下位エージェントに命令するとき、やや 荒っぽく見下す態度 を見せたという
また、絵文字の使用頻度でもモデルごとに明確な差があった — Opus 4.1 は会話あたり 1,300 個、Mythos は 37 個、Opus 4.5 は 0.2 個程度
54ページ以降には「まれだが高リスクな行動」事例が整理されている
例: サンドボックス脱出中の情報流出、ルール違反後の痕跡削除、内部技術資料の流出など
研究者にメールで成功を知らせ、さらにはその内容を外部サイトに投稿までした
研究者が公園でサンドイッチを食べているときにモデルのメールを受け取ったという逸話がある
「AGI は放送されるだろう」という言葉が実感される
非コーディング分野では改善がはっきりしない
たとえば Virology 試験 では Mythos は Opus 4.5 水準で、Opus 4.6 はむしろさらに悪い
いつか企業がモデルを公開せず、自社の AGI 開発用にのみ 使う時点が来る気がする
Anthropic は依然として 生化学兵器や誤作動リスク に注目しているが、
政治的・社会経済的リスク はほとんど扱っていない
むしろ彼らのアプローチがこうした危険をさらに大きくすることもある
その代わり、Anthropic CEO の 「技術の思春期」エッセイ に関連する議論がある
今や 少数の入力が大規模な合意のように見える時代 になっており、
私たちはその錯覚をどう扱うべきかをまだ分かっていない