1 ポイント 投稿者 boradi 3 시간 전 | まだコメントはありません。 | WhatsAppで共有
  • Anthropicが、数日単位の長期・非同期タスク向けの第5世代モデルをリリース。Fable 5はMythos級モデルを一般ユーザー向けに安全化した版で、Mythos 5は同じモデルの一部セーフガードを緩めた版
  • Mythos級はOpus級の上に位置する新しいモデルティア。最初のモデルであるMythos Previewは4月にProject Glasswingとして公開され、今日Fable 5とMythos 5がそれに続く
  • 名称の由来: Fableはラテン語の fabula(「語られるもの」)に由来し、ギリシャ語の mythos と同語源。両モデルを分けるのはセーフガードそのものであり、そのため名前も分けている
  • 価格は入力100万トークンあたり10ドル、出力50ドルで、Mythos Previewの半額以下。APIモデル名は claude-fable-5

性能

  • タスクが長く複雑になるほど優位性が大きくなる、というのが中核メッセージ
  • コーディング: Stripeの事前テストで、5,000万行のRubyコードベース全体のマイグレーションを1日で実施(チームが手作業で行うと2か月以上)。自らテストを作成し、ビジョンで成果物を元のデザインと照合して検証。CognitionのFrontierCode評価ではmedium effortでもフロンティアモデル中の最高点
  • エージェント: Claude Codeのような環境で数日間にわたり自律動作し、計画立案、サブエージェントへの委任、自己検証まで実行
  • ビジョン: スクリーンショットだけでWebアプリのソースコードを再構築し、ビジョン専用の最小ハーネスでポケットモンスター ファイアレッドをクリア(従来モデルは複雑な補助ハーネスが必要)
  • メモリ: Slay the Spireでファイルベースの永続メモリを与えると、Opus 4.8比で性能が3倍向上し、最終章到達頻度も3倍
  • 知識労働: Hebbiaの金融ベンチマークで全モデル中最高点、IMCのトレーディング分析評価をほぼ全領域で通過

ベンチマーク

  • SWE-Bench Pro 80.3%(Opus 4.8は69.2%、GPT 5.5は58.6%)、GDPval-AA 1932、OSWorld 85.0%など、コーディング、知識労働、ビジョン、コンピュータ利用全般で優位と主張
  • 注意: 表中の一部の数値はMythos 5とFable 5のうち高い方の値で、アスタリスク付き項目(生物学、サイバーセキュリティなど)には、セーフガードのfallbackによりOpus 4.8に近い性能になるとの注記が付いている

Mythos 5の科学的成果

  • タンパク質設計プロセスを約10倍高速化し、14ターゲット中9件で有力候補を確保。結合部位の選定、ツール実行、失敗からの復旧まで人の補助なしで実施
  • ブラインド比較で、科学者たちは分子生物学の仮説を約80%の割合で支持。ある仮説(大腸菌タンパク質の新しいメカニズム)は、同じ問題を独立に研究していたラボで実証された
  • 1週間を超える自律作業で、138種の動物の数百万細胞データを集め、カスタムMLモデルを設計・訓練し、Science掲載の最新モデルを100分の1のサイズで上回った
  • アラインメント評価: Mythos 5のミスアラインメント行動の水準は低く、Opus 4.8と同程度と報告

セーフガード

  • 分類器が遮断する領域は3つ: サイバーセキュリティ、生物学と化学、蒸留(権威主義国家の競合モデル学習向けに能力抽出を試みる行為)。該当するリクエストは自動的にOpus 4.8へ迂回され、ユーザーにも通知される(迂回時はFable料金は請求されない)
  • セッションの95%以上ではfallbackなしで、セーフガードは平均5%未満のセッションで動作。ただし、セーフガードを保守的に調整しているため無害なリクエストも時折引っかかると認めており、false positiveは今後減らしていく計画
  • 外部バグバウンティ1,000時間以上でもユニバーサル脱獄は未発見。ただしUK AISIは短い初期テストでそれに近い進展を見せた。ある外部パートナーのテストでは、サイバー攻撃関連の有害な単発リクエストに対し、30種類の公開脱獄手法を使っても応答は0件
  • AAV(遺伝子治療ベクター)設計評価では、Mythos級が専用タンパク質言語モデルを生物学的推論だけで上回った。デュアルユース・リスクの根拠として提示
  • 利用時は、安全モニタリング目的の30日間データ保持が必須。1st partyと3rd partyの全トラフィックに適用され、モデル学習や安全以外の目的には使われず、人間によるアクセスは記録され、30日後に削除

価格と提供開始

  • Enterprise(従量課金)プランとClaude Platform、AWS、GCP、Microsoft Foundryで提供
  • サブスクリプションプランは段階的ロールアウト: 6月9日から6月22日までPro、Max、Team、座席制Enterpriseに無料で含まれる。6月23日からは外れ、usage creditが必要。容量確保後は基本構成として復元予定。APIと従量課金Enterpriseは今日から全面的に利用可能
  • Mythos 5は今日から既存のMythos Previewユーザー(Glasswingパートナーなど)がアップグレード可能。多くの場合Previewと同等かやや強力で、コストは大幅に安い。世界最強のサイバーセキュリティ能力を主張
  • 生物学trusted access programも別途開設予定(Fable 5で生物学と化学のセーフガードのみ解除し、サイバーのセーフガードは維持)

まだコメントはありません。

まだコメントはありません。