Anthropic、Claude 3.7 Sonnetをリリース
(anthropic.com)Anthropicは、これまでで最も知的なモデルであるClaude 3.7 Sonnetをリリースしました。このモデルは市場初のハイブリッド推論モデルで、即時の応答と、ユーザーに表示される段階的な思考プロセスの両方を提供できます。
主な特徴:
- コーディングとフロントエンドWeb開発で大幅な性能向上を実現
- 新しいコマンドラインツール「Claude Code」を導入 - 開発者はターミナルから直接エンジニアリング作業をClaudeに委任可能
- すべてのClaudeプラン(無料、Pro、Team、Enterprise)とAnthropic API、AWS Bedrock、Google Cloud Vertex AIで利用可能
- 拡張思考モードは無料ティアを除くすべてのプラットフォームで利用可能
- 価格は前モデルと同じ: 入力トークン100万個あたり$3、出力トークン100万個あたり$15(思考トークンを含む)
性能向上:
- SWE-bench VerifiedとTAU-benchで最高性能を達成
- Cursor、Cognition、Vercel、Replit、Canvaなどの初期テストで、複雑なコードベース処理、高度なツール利用、コードの計画と変更、フルスタック更新における優れた能力を実証
- 本番レベルのコード生成とエラー低減性能を示す
- 数学、物理学、命令追従能力が向上
Claude Code:
- コードの検索と読み取り、ファイル編集、テストの作成と実行、GitHubへのコードのコミットとプッシュ、コマンドラインツールの利用が可能
- テスト駆動開発、複雑な問題のデバッグ、大規模なリファクタリングに特に有用
- 通常45分以上かかる作業を一度で完了し、開発時間を大幅に短縮
- 現在は限定的なリサーチプレビューとして提供
GitHub統合:
- すべてのClaudeプランでGitHub統合機能が利用可能に
- 個人、業務、オープンソースプロジェクトへのより深い理解に基づく
- バグ修正、機能開発、ドキュメント作成などで強力なパートナーとして機能
- ユーザーの重要なGitHubプロジェクト全体にわたって支援を提供
安全性の改善として、前モデルと比べて不要な拒否応答が45%減少し、有害なリクエストと無害なリクエストの間をより微妙に区別できるようになりました。
5件のコメント
Anthropic CEOダリオ・アモデイ: DeepSeekモデルはそれほど驚くべきものではない
Perplexity にも追加されましたね。
でも、まだ推論は使えないようです..
Claude Code をインストールして使ってみましたが、2つのプロジェクトの概要を動画のように尋ねてみました。
Total cost: $0.1151
Total cost: $0.0855
約0.2ドル使いますね……?
動画の例が45分以上かかる作業だとすると、かなり高価な作業になっていた気がします。
かなり高くて、コスパはよくありません。実運用ではむしろo3-miniのほうがまだ良さそうですが、コーディング用途で使うなら推論段階が短く、中間トークンの問題も解決する必要があるので、その用途で見れば最適だと思います。価格も……
拡張思考モード(Thinking Mode - Extended)
OpenAIのo1やDeepSeekのR1のような別個の推論モデルとは異なるアプローチを選んだようです。単一モデル内に2つのモードを統合したものに見えます。
さらに、モデルに学習データのカットオフ日を直接尋ねると、2024年10月末だと回答するようです~!