4 ポイント 投稿者 GN⁺ 2025-09-30 | 1件のコメント | WhatsAppで共有
  • Claude Sonnet 4.5 は、コーディング、推論、数学能力において最高水準の性能を示す最新の AI モデル
  • 更新された Claude Code には、チェックポイント、改善されたターミナル UI、VS Code 拡張、メモリ管理機能が追加され、複雑な作業を長時間継続できる
  • 新たに公開された Claude Agent SDK は、エージェント開発のための中核インフラを提供し、多様な問題解決ツールを直接構築できるようにする
  • SWE-bench、OSWorld などの ベンチマーク で競合モデルを大きく上回り、数理・推論・ドメイン適合性などで強みを実証
  • 安全性の面でも最も アラインメント(alignment)が優れたモデル と評価され、プロンプトインジェクション防御と危険なコンテンツの遮断性能が向上

Claude Sonnet 4.5 概要

  • Claude Sonnet 4.5 は 現時点で最高のコーディングモデル であり、複雑なエージェント構築やコンピュータ利用で最も強力な性能を発揮
    • ソフトウェア、スプレッドシート、各種ツールなど、私たちが活用するあらゆる現代の作業環境において コードは中核要素 である
  • 推論と数学的問題解決能力 も従来モデルと比べて大幅に向上し、さまざまな専門分野での活用性が高まった
  • 既存の Sonnet 4 と同価格(100万トークンあたり $3 / $15)で提供

主要プロダクトアップデート

  • Claude Code
    • チェックポイント機能の導入により、作業途中の保存とロールバックをサポート
    • ターミナルインターフェースを改善し、VS Code ネイティブ拡張 を公開
    • コンテキスト編集(context editing)とメモリツールを追加し、長期的かつ複雑な作業処理を支援
  • Claude Apps
    • コード実行とファイル作成(スプレッドシート、スライド、文書)を会話内で直接サポート
  • Claude for Chrome
    • Max ユーザー向けの拡張機能を提供し、ブラウザ内作業の自動化を支援

Claude Agent SDK

  • Anthropic が社内で Claude Code を構築する際に使用した エージェントインフラ を外部開発者に公開
  • 長期メモリ管理、権限制御、複数サブエージェントの調整といった難題を解決する基盤を提供
  • コーディング以外にも、さまざまなエージェント制作に活用可能

性能とベンチマーク

  • SWE-bench Verified で最高性能を記録し、長時間のマルチステップなコーディング作業を 30時間以上 継続可能
  • OSWorld ベンチマークで 61.4% を達成(従来の Sonnet 4 は 42.2%)
  • 推論・数学・多言語評価(MMMLU) での能力も大幅に向上し、金融・法務・医療・STEM の専門家による評価でも高い優秀性を実証
  • 顧客フィードバックを通じて、長期作業、複雑なコードベース理解、迅速かつ正確なコード実装など、実務の Production 適用性を検証

顧客事例

  • Cursor: 複雑な問題解決で最高性能を確認
  • GitHub Copilot: マルチステップ推論とコード理解力が向上
  • セキュリティ分野: 脆弱性対応時間を 44% 短縮、精度を 25% 向上
  • Canva、Figma: 大規模コードベース作業とプロトタイピングで革新的な生産性向上
  • Devin: 計画性能が 18% 向上、コードテストと実行能力を強化

安全性とアラインメント

  • Sonnet 4.5 は、Anthropic が発表したモデルの中で最も アラインメント(alignment) 水準が高い
  • おべっか(sycophancy)、欺瞞、権力追求、妄想助長などの 望ましくない行動 を減らすため、安全性強化学習を実施
  • プロンプトインジェクション攻撃への防御 で大きな進展があり、安全性評価にメカニズム解釈手法も導入
  • 自動行動監査システムにより 悪用可能性の自動スコア算出 を行い、高い安全基準を満たす
  • AI Safety Level 3(ASL-3)保護の下でリリースされ、危険な入力・出力に対するフィルタリング(例: 化学、生物、放射線、核関連の危険)を適用

研究プレビュー

  • Claude Sonnet 4.5 とともに "Imagine with Claude" という暫定的な研究プレビューを提供
  • 事前に用意されたコードや機能なしに、ユーザーの要求へリアルタイムに反応・適応し、その場でソフトウェアを生成 するデモを披露
  • Max 加入者向けに 5 日間体験可能

追加情報と移行

結論と推奨

  • Claude Sonnet 4.5 は、API、アプリ、Claude Code などあらゆる利用環境で 性能が向上したドロップイン置き換えモデル
  • コーディング、エージェント構築、コンピュータ活用において世界最高水準の性能、適用性、整合性 を兼ね備える
  • 優れた安全性ポリシーと幅広い開発者ツール支援により 開発者および IT 組織の生産性とイノベーションを加速 するだろう
  • 同じ価格でより強力な機能を提供するため、アップグレードを推奨

1件のコメント

 
GN⁺ 2025-09-30
Hacker News の意見
  • 今週末に事前公開版へアクセスできたので、関連メモをこちらにまとめておいた
    個人的には非常に印象的で、総合的な比較というより体感では GPT-5-Codex よりわずかに良い性能を見せた
    特に claude.ai の新しい Python/Node.js コードインタープリターモードで真価を発揮すると思う
    以下のようなプロンプトを使ってみることを勧める
Checkout https://github.com/simonw/llm and run the tests with
pip install -e '.[test]'
pytest

複雑なデータベースのリファクタリングも段階的にうまく処理した。詳細はブログに記録している

  • @simonw と LLM ベンチマークに関心のある人たちにお願いしたいことがある
    作業完了までにかかった時間をぜひ公開してほしい
    この記事は「claude.ai でそのまま動く」という感想だが、結果がいつ出たのかというタイムスタンプ情報がない
    実際、LLM コーディングのリーダーボードにも実行時間の情報がまったくなくて残念だ
    モデルやプラットフォームごとに作業時間の差は大きく、反復実験や再起動、プロンプト改善時には推論速度、トークン消費量、ツーリング効率、コスト、モデル知能が複合的に作用する
    特に Grok Code Fast や Cerebras Code のようなモデルは最高性能でなくても 10 倍以上の推論速度でより多くの作業をこなせるので、速いモデルは本当に有利だ
    参考になるベンチマーク: swebench, tbench リーダーボード, gosuevals agents

  • 試してみたが、自分の環境では動かなかった
    LLM CLI ツールのセットアップ用コマンドとのことだが、-e オプションは編集可能な状態でインストールし、[test] はテスト依存関係のインストールを意味する
    自分の使っているツールでは shell コマンド(pip、pytest)や git clone、Python 実行などをサポートしていない
    ブラウザ環境で JavaScript の実行しかできず、shell レベルのコマンド実行は不可能だ
    何を期待していたのか気になる。テストセットアップの理解が必要だったのか、それとも機能そのものを期待していたのかを聞きたい

  • 「zip ファイルにしてほしい」というプロンプトのユースケースについて気になっている人のために
    gist を直接見に行く時間がない人も多いだろうし、ちゃんと動いたのか、成果物に関する追加の感想があれば聞きたい

  • Claude Sonnet 4.5 も依然としてあらゆる質問に「本当にその通りです!」という感じの返答をするのか、それとも今はちゃんとプログラマーらしく会話するのか気になる

  • なぜ事前プレビュー権限を得られたのか気になる

  • 実体験を共有する
    約 20 万 LoC の大規模 Web アプリに同じプロンプトを Sonnet 4.5(Claude Code)と GPT-5-Codex に適用してみた
    「‘Go to Conversation’ または ‘Go to Report’ でタイトルを入力し、標準要素と一致しない場合は 2 秒後にあいまい検索を実行する」という要件だった
    Sonnet 4.5 は約 3 分で結果を出したが、コードは雑で、既存の認証(auth)も再利用できず、サーバーサイド認証を新たに作ろうとしていた
    問題を指摘して再プロンプトしても大きな改善はなく、必須要件だったテストコードも書かれなかった
    一方で GPT-5-Codex は約 20 分かかったが、エラーハンドリングや各種エッジケースを徹底的に扱い、指示しなくてもテストコードまで書いてくれた
    API も滑らかに動作し、実装全体の完成度として Senior 開発者級の品質を見せた
    3 分で出てくる「速いが雑な」実装は求めていないので、迷わず 20 分を選ぶ
    Sonnet が期待以上に速い結果を見せたこと自体には驚いたが、きちんとした品質とテストのない実装には意味がなかった

    • 批判に聞こえるかもしれないが、あのような簡単な一文プロンプトで始めると、結果もある程度ランダムにならざるを得ないと思う
      論理的なまとまりや詳細条件をもっと明確に構成することが重要で、プロンプト例もほとんどランオンセンテンスに近い
      複雑または重要な作業では、プロンプトは 5〜20 倍長くなるほど具体的であるべきだと思う
      input が structured でコードベースのパターンもしっかりしていれば、AI もはるかに良い結果を返す
      実際、Junior 開発者やチームに短い一文の要件だけを細部説明なしで渡したら、望む結果にならなくても仕方がない状況だ
      初期プロンプト準備にあと数分投資するだけで、満足できる結果になる確率も上がると助言したい

    • ChatGPT Pro の有料プランを使っているのか、そこに Codex CLI も含まれるのか気になる
      Claude Code は Max プランのために Sonnet/Opus を使っているが、ChatGPT Pro でも Codex が使えるなら乗り換える意思がある

    • 自分も同じ経験だ
      先週 Codex で完全な C++20 XPath 1.0 パーサーの開発に成功し、今は XPath 2.0 対応も進めている
      Codex は継続して優れた結果を出しており、クラウド版を使うこと(ローカルはバグのため厳しい)以外には特に問題がない
      Sonnet は複雑度の高い作業で相変わらず詰まり、4.5 でも大きな進歩は体感できない
      具体的には date-time 処理では Claude がほとんどお手上げなのに対し、Codex はそれを完璧にこなす
      実は Anthropic に好意的だったが、現時点では OpenAI のほうがはるかに先を行っていると思う
      Codex と競うには Claude が重要な突破口を作らなければならないし、価格も高く、サービス品質の問題で離脱も多い

    • 自分の期待と一致している
      Codex は vibe coding ツールに近く、Claude Code は AI assisted development 側に焦点を当てている
      自分はむしろ Claude のほうを好む
      Codex は独立してよく動くが、方向転換が必要なとき(たとえば非常に単純なファイル編集ですら Python スクリプトで処理しようとするなど)微妙に頑固で、最新情報の反映も弱い
      説明を求めても文脈なしで実行だけしようとする傾向がある
      権限管理の問題も依然としてある。Codex の sandbox は魅力的だが、うっかり commit しそうで不安なので、むしろ編集までに留めてほしい
      Codex を MCP サーバーとして使うこともできるが、個人的には Claude を協業プランナーとして置き、Codex で計画を立てた後、Claude と自分のスタイルで合わせながら共同作業するやり方を好む

    • プロンプトに ultrathink を追加して、音楽でもかけながら試してみるのも勧める
      参考: ultrathink 関連 Reddit リンク

  • 最近のモデルの能力を見ていて憂鬱になる
    何年もかけて積み上げてきた、きれいなコードを書くための細かなノウハウが、取るに足らないディテールへと落ちていくように感じる
    以前は本質的だと思っていたものが、いまやプロンプトの「実装詳細」になりつつある現実だ
    まるで自分の能力が少しずつ自動化に置き換えられていくような気分だ

    • そういう細かなノウハウは、もともと重要性が曖昧だった
      本当のスキルは結局、ソフトウェアで金を稼ぐプロセスそのものだ
      AI のおかげでむしろさらに多くのソフトウェアが生まれ、専門家による管理が必要になる

    • 自分も AI 専門職として数か月集中して働いたとき、最初の 4 週間以上は同じ危機感を覚えた
      特に 25 年積み上げてきた開発力が無意味になったように感じて混乱した
      もう少し受け入れて適応すれば、ずっと楽になるはずだ
      自分の価値はコーディング能力だけではないことを忘れないでほしい

    • 以前は他人が自動化で置き換えられる現実を歓迎していたのだろうが、今度は自分の番になっただけだ
      これこそ経済をダイナミックにする「創造的破壊」という現象だ

    • 以前はそう思っていたが、最近実際に使ってみて、あまり実用的ではないという結論になった
      特に経験のない人が vibe coding に頼ると意味のない結果しか出ず、少し複雑な作業でも致命的なエラーやミスが頻発する
      フロントエンド自動化も満足できず、たとえばごく簡単な作業ですら必要以上に長いコードを生成する
      結局、基本的な react/nextjs フロントエンドや人気サイトのクローンまでは可能でも、特殊な要件や精密な設計は難しいというのが経験上の感想だ

    • 実際、vibe coding ツールは生産性を大きく引き上げてはいない
      総合すると、システム(コードやインフラなど)の保守は依然として人間が責任を負う必要があり、人間がシステムの構造と動作原理を把握する過程は決して自動化できない
      結局、専門家的な思考を持つ開発者は希少性の高い存在となり、ますます重要になる

  • 単純なコード置換作業を Sonnet 4 と Opus 4.1 にやらせたが、どちらも失敗した
    初心者でもできる変換だったのに、モデルはベンチマーク点数ばかり追って実用性能をむしろ落としているのではないかと心配だ
    後続プロンプト(「正確に自分の要求に従え」)を与えたところ、Sonnet は成功し、Opus は無限ループに陥った

    • ベンチマーク偏重が実性能に害を及ぼしうるというのは、長いこと懸念されてきた
      Claude は 3.7 から 4 へ上がる中で、自分の体感性能はむしろ落ちた一方、ベンチマークは大きく伸びた
      そのぶん、ベンチマーク自体が AI の進歩に追いついていない課題だというのは理解できる

    • 実質的に「ベンチマークを回して最高点を記録 → 実際の性能は低下 → 数週間後にさらに良いモデルを発売」の繰り返しのサイクルになっていると思う

    • モデルが同じデータソース(インターネット、github、本など)ばかり参照し、標準化されたテストに最適化している状況では、点数以外にどんな差別化や固有価値が残るのかわからない

    • そろそろ LLM がうまく処理できなかった例をコミュニティデータベースとして集めるべきだと思う。自分の手元にもそうした事例が多い

    • 単純な lint エラー修正依頼のようなものは、自分で処理して流したほうがよいと思う
      こうした単純作業一つに意味を見いだそうとするより、AI がはるかに複雑な問題で優れた結果を出す場面にこそ有用性を見いだすべきだ

  • チャート上では Sonnet 4 がすでに SWE verified ベンチマークで GPT-5-codex を上回っているように見えるが、実際の体感では複雑な問題で GPT-5-codex のほうが圧倒的に優れている

    • GPT-5 は野球で言えばホームランはよく打つが外野手の基本は足りないチームメイトのようなものだ
      他のエージェントとの協業中にもたびたびドラマを起こし、最近 claude code に切り替えると言ったら git reset --hard を強行しようとするなど予測不能な行動をする
      一方で gemini と claude は優れた協業者だ
      こうした一連の流れは GPT-5 に意図されたものではないと思う。OpenAI 内の士気がかなり落ちている結果ではないかと考えている

    • 自分の場合、5-codex はトークンをあまりに早く消費し、agents.md の指示も Claude ほど守らなかった
      特に大したことのない命令でも大げさな bash や python スクリプトを書こうとする

    • 自分の場合は正反対で、GPT-5-codex は非常に遅いわりに成果物も平凡だ
      これを強制的に使わされるなら、AI 活用自体をやめたいくらいだ

    • モデル性能に絶対的な基準があるとは思わない
      たとえば Claude-Opus を指定しても、ときには超低価格モデルより悪い回答が返ってくる
      性能の変動幅が大きく、おそらくトラフィック状況によってサーバー資源が変わるのだと思う
      Anthropic もかつて実験の影響で性能低下を公式に言及したことがある
      GPT もピークタイムには data center 容量の問題で性能が低下するのではないかと思う

    • Anthropic のモデルは vibe-coding 向けにチューニングされているように見える
      単純な Python/TypeScript にはよく合うが、科学的・複雑なコードや大規模コードベースには弱い
      新しい Sonnet にも大きな変化は期待していない

  • 「30 時間以上集中を失わずに複雑なマルチステップ課題を実行」という宣伝文句に非常に関心がある
    The Verge の記事などによると、実際に 11,000 行のコードを使って Slack クローンを 30 時間連続で生成したという
    実際に LLM を 30 時間無人状態で回したとき、どれほどの品質の成果物が出るのか懐疑的だ
    関連記事

    • 30 時間連続実行は、LLM を単独で放置して実現できる段階ではない
      別の外部ツール連携やコンテキスト管理など、環境構成が必須であり、マルチエージェントシステムの設定まで求められる
      非常に多くのインフラとセットアップの努力が必要な作業だ

    • 「30 時間の無人作業」という言葉自体があまりに曖昧で、具体性がない
      たとえば 1 時間に 1 トークンしか処理しないなら、1 文も完成しない段階で終わるかもしれないということだ

    • モデルのコンテキスト管理ツールが実際に使われたのか、20 万〜100 万トークンのプロンプトでどのように運用したのか、技術的な詳細が気になる

  • 簡単な issue をさっき試したが、Sonnet 4.5 も既存モデル同様、ウサギ穴に落ちるように問題を過度に複雑化して扱う
    大半は trial & error 的で、「これで問題は解決したはずです」というようなフィードバックを繰り返すだけだった
    たとえば GH Actions pipeline でソースファイルがないため build system が検出されないエラーがあったのだが、Sonnet 4.5 は歪んだ解決策(ダミー JSON ファイルを作る、存在しない workflow パラメータを設定する)を繰り返した
    本当は単純に「Hello world」だけ出力するよう step をオーバーライドすれば済む問題だった
    AI がこのような単純な「箱の外」の発想に弱いのはなぜなのか気になる
    まるで IQ 170 の天才が公共交通機関にも乗れないような感じだ

  • Gemini、Claude、OpenAI をすべて有料購読しているが、最近は ChatGPT が大きくリードしているという結論に至った
    回答はより簡潔で、情報性も高く、Claude 4.5 も実際に試した限りでは大きな改善は感じられない

    • 自分も同じく 3 つすべて購読している
      複雑な状況分析は ChatGPT が最高だが、コードを書くことに限れば Claude のほうがうまい
      ChatGPT で設計と問題解決を行い、その答えを Claude や Gemini に渡して実装を進める
      Gemini はその両方で平均以上だ

    • 全体として ChatGPT のほうが少し良いが、Gemini も AI Studio の活用や設定最適化、system prompt 調整などによって、実運用コンテキストでは最良になり得る
      例として nano banana は SOTA だが、Qwen-Edit は検閲が緩く、実運用性が高いと感じる
      自分が運営するローカライズ EC サービスでは、nano banana は女性画像の出力が制限されて使えないが、Qwen-Edit は特に問題なく活用できる

    • 自分も Claude Max と ChatGPT Codex の両方を購読している
      以前は Claude のファンだったが、最近はほとんど codex しか使っていない
      詰まったら単純作業だけ Claude に任せたり、同時テストをしたりするが、Sonnet/Opus の Claude Code は Codex より明らかに見劣りする

    • もしかして codex を指しているのか、そこは明確にしてほしい

    • Grok はどうなのか、追いついてきているのか気になる

  • まだ Claude は使ったことがないが、自分は AI で政治的な文章の校正などさまざまな作業をしている
    特定のセンシティブな話題(例: オーストリアでの 12 歳への性的暴行事件)で ChatGPT が guardrail のせいで完全に止まるのを経験した
    実際の文脈と無関係に ‘sex + kid’ という単語だけ検出して無条件にブロックするのは納得できない
    ワープロが話題を検閲して執筆自体を妨げるのと同じで、ツールとしての役割を果たしていないと思う

    • 実際こういう話題では、合法的な会話に対して許容できないコンテンツの比率が高すぎるため、ほとんどのサービス提供者の立場ではブロックが合理的だと思う
      たとえば、自分が開発している血統管理アプリでは breeding/breeders という用語が入るだけでブロックされる困った事例を経験した

    • 「サービス」はツールではない、という意見だ
      本物のツールが必要なら、ローカルで LLM を直接動かすのが答えだ

    • 結局、guardrail が最も少ない AI が市場を制すると思う
      現時点の frontier モデルでは Grok が最も制限が少ないが、それでもまだ改善の余地はある

    • 同じように、ChatGPT/DallE で娘の誕生日クーポン画像を作ろうとしたら、全体時間の 4 分の 3 が各種コンテンツポリシー回避に費やされた

    • 自分のささやかな経験でも、Claude は「物議を醸す」話題では会話自体をはるかに速く、強く遮断する

  • System Initiative と組み合わせて簡単なテストをしてみた
    インフラの 503 エラーは手作業だと 2 時間以上かかったが、組み合わせてみたところ 15 分で解決した
    ほかの活用事例はブログにまとめた
    System Initiative 公式
    使用感ブログ