1 ポイント 投稿者 GN⁺ 2025-02-25 | 2件のコメント | WhatsAppで共有

発表

  • Claude 3.7 SonnetとClaude Codeが発表された。Claude 3.7 Sonnetは市場初のハイブリッド推論モデルであり、高速な応答と段階的な思考を提供する。API利用者はモデルの思考時間を細かく調整できる。
  • Claude 3.7 SonnetはコーディングとフロントエンドWeb開発で特に強力な性能を示す。Claude Codeはターミナルから直接エンジニアリング作業を委任できるコマンドラインツールで、限定的な研究プレビューとして提供される。
  • Claude 3.7 SonnetはすべてのClaudeプランとAnthropic API、Amazon Bedrock、Google CloudのVertex AIで利用可能。拡張思考モードは無料のClaude階層を除くすべてのプラットフォームで利用できる。

Claude 3.7 Sonnet: 実用的な最先端推論

  • Claude 3.7 Sonnetは従来の推論モデルとは異なる哲学で開発された。人間が高速な応答と深い熟考のためにひとつの脳を使うように、推論は統合された機能であるべきだと考えている。
  • Claude 3.7 Sonnetは一般的なLLMと推論モデルをひとつに統合し、ユーザーは通常の応答と深い思考を選択できる。拡張思考モードでは、数学、物理学、コーディングなどで性能が向上する。
  • APIを通じてClaude 3.7 Sonnetを利用する際、ユーザーは思考に対する予算を調整できる。これにより、応答の速度と品質を調整できる。
  • Claude 3.7 Sonnetは数学やコンピューターサイエンスの問題よりも、実際のビジネスユースケースに重点を置いている。初期テストではコーディング能力で優れた成果を示した。

Claude Code

  • Claude Codeは、開発者がコード検索、ファイル編集、テスト実行、GitHubへのコードのコミットおよびプッシュなどを行えるよう支援するツールである。
  • Claude Codeは、テスト駆動開発、複雑な問題のデバッグ、大規模なリファクタリングで特に有用である。初期テストでは開発時間を大幅に短縮した。
  • Claude Codeの目標は、開発者がClaudeをどのように使っているかを理解し、今後のモデル改善に反映することである。

Claudeとともにコードベースで作業する

  • Claude.aiでのコーディング体験が改善された。GitHub連携がすべてのClaudeプランで利用可能になり、開発者はコードリポジトリをClaudeに直接接続できる。
  • Claude 3.7 Sonnetは、個人、業務、オープンソースプロジェクトに対する深い理解を通じて、バグ修正、機能開発、ドキュメント作成における強力なパートナーとなる。

責任を持って構築する

  • Claude 3.7 Sonnetは、セキュリティ、安全性、信頼性を確保するために、外部の専門家と協力して広範なテストと評価を実施した。
  • 新しい安全性の結果を扱うシステムカードが提供される。これには、他のAI研究所や研究者が適用できる責任あるスケーリング方針の評価が含まれる。

未来に向けて

  • Claude 3.7 SonnetとClaude Codeは、人間の能力を拡張できるAIシステムに向けた重要な一歩である。これらは深い推論、自律的な作業、効果的な協業を通じて人間の達成を広げる。
  • 新機能を探求し、創造していくことを期待しており、継続的な改善のためのフィードバックを歓迎する。

2件のコメント

 
GN⁺ 2025-02-25
Hacker Newsの意見
  • Claude 3.7 SonnetがAider多言語リーダーボードで60.4%を記録

    • 思考なしでも高得点を記録し、Sonnet 3.5の記録を上回った
    • Aider 0.75.0が3.7 Sonnetをサポート
    • まもなく思考サポートとベンチマーク結果が公開予定
  • Claude CodeチームのBorisが製品に関する質問に回答予定

  • Kagi LLMベンチマークがSonnet 3.7の汎用モードおよび思考モードに更新

    • Gemini 2.0 Proに次ぐ、2番目に強力な汎用LLMと評価
    • 思考モードではo1-miniおよびo3-miniと同程度
    • 全体として高品質と高速性を同価格で提供
    • Kagi Assistantで24時間以内に有効化予定
  • HNプロフィールを分析できる面白い機能がある

    • 新しいモデルのユーモアをテストするために使っている
  • OpenAIは実際のビジネスでのLLM活用方法に焦点を当てている

    • 「最も賢いモデル」を目指しているが、実際には学習補助、データ変換、コード作成に主に使われている
    • 「知能」と「実用性」のバランスが重要
  • Anthropicがコードに注力するのは妥当

    • Devinの競合がどうなるのか気になる
  • Cursorを最新バージョンに更新し、モデル一覧に"claude-3.7-sonnet"を追加した

    • "claude-3.7-sonnet-thinking"も動作する
    • まもなく思考時間の制御機能が追加予定
  • Claude 3.7 Sonnetとの最初のやり取りで強い印象を受けた

    • CloudFlare Pages Functionsの問題解決に役立った
    • Claude 3.7が問題を正確に特定し、解決策を提示した
  • Claudeが30秒で学士論文の半分を書き直した

    • Gemini Flash 2は失敗した
  • o1 proが何度か驚くべき成果を見せた

    • 複雑なMCUコードのレビューに役立った
    • o1 proがSPIを使ったコードを理解し、問題を指摘した
    • Claude 3.7の思考モードはそれほど有用ではなかった
    • o1 proがIPsec VPNの問題解決に役立った
    • ChatGPTとClaudeを比較しながら使っている
 
riskatcher 2025-02-25

flash 2と比べるには価格差が大きすぎるけど……ちょうどo1proとo3-miniの中間クラス