- AnthropicがアップグレードされたClaude 3.5 Sonnetと、新モデルのClaude 3.5 Haikuを発表
- Claudeに人間のようにコンピューターを使うよう指示できるComputer Use機能を、パブリックベータとして新たに導入
- 既存の価格と速度を維持しながら、全体的な性能が向上
Computer Use機能の紹介
- 開発者はAPIを通じて、Claudeが実際の人間のようにコンピューターを使用するよう指示できる
- 画面の確認、カーソル移動、ボタンのクリック、テキスト入力などの作業が可能
- 現在は実験段階のため、ときどき使いづらさやエラーが発生する可能性がある
- Asana、Canva、Cognition、DoorDash、Replit、The Browser Companyはすでに、数十段階、時には数百段階を要する作業を実行するため、この可能性の検証を始めている
Claude 3.5 Sonnet: 業界最高水準のソフトウェアエンジニアリング能力
- 更新版のClaude 3.5 Sonnetは業界ベンチマークで幅広い改善を示し、特にエージェントコーディングおよびツール使用タスクで強力な性能向上を見せている
- SWE-bench Verifiedでは33.4%から49.0%へ性能が向上し、公開利用可能なすべてのモデルを上回るスコアを記録
- TAU-benchでも小売ドメインで62.6%から69.2%へ、航空会社ドメインで36.0%から46.0%へ性能が向上
- GitLab、Cognition、The Browser Companyなど顧客企業からの初期フィードバックによると、Claude 3.5 SonnetはAIベースのコーディングにおける大きな飛躍を示している
Claude 3.5 Haiku: 最先端技術に経済性と速度を組み合わせたモデル
- Claude 3.5 Haikuは最速モデルの次世代版
- 前世代のHaikuと同じコスト、同等の速度で、あらゆる技術分野において改善されており、従来の最大モデルであるClaude 3 Opusを上回る
- 特にコーディング作業に強みを持ち、SWE-bench Verifiedで40.6%を記録し、既存のClaude 3.5 SonnetやGPT-4oを含む公開最先端モデルを用いた多くのエージェントを上回る
- 低レイテンシ、向上した指示追従性、より正確なツール使用といった特徴により、ユーザー向け製品、専門的なサブエージェント業務、大規模データからパーソナライズされた体験を生成する用途に適している
Claudeに責任あるコンピューター操作を教える
- Computer Use機能を通じて、根本的に新しい試みに取り組んでいる
- 個別の作業を完了するための特定ツールを作る代わりに、Claudeに汎用的なコンピューター操作スキルを教えている
- 開発者はこの初期機能を使って、反復的なプロセスの自動化、ソフトウェアの構築とテスト、研究のようなオープンエンドな作業を行える
- OSWorldでは、Claude 3.5 Sonnetがスクリーンショット専用カテゴリで14.9%を記録し、次点のAIシステムの7.8%を大きく上回った
- Computer Use機能はまだ不完全であり、スパム、誤情報、詐欺などの脅威に対する新たな経路となり得るため、安全な展開に向けて先回りのアプローチを取っている
Computer Useの今後の展望
- 初期段階にあるこの技術の初期展開から学ぶことは、ますます強力になるAIシステムの可能性と影響をよりよく理解する助けになるはず
- 新モデルとComputer Use機能のパブリックベータ版を試し、フィードバックを共有してほしいとしている
- これらの開発が、Claudeとの協業のあり方に新たな可能性を開くと考えている
GN⁺の見解
- Computer Use機能はRPA(Robotic Process Automation)に似ているが、より柔軟で汎用的なアプローチを提供するように見える
- 企業の反復的な業務の自動化に大きく役立つと見込まれるが、初期段階ではエラー発生の可能性を考慮し、重要度の低い作業から始めるのが望ましい
- この機能はPower Automate、UiPathなど既存のRPAツールと競合するとみられ、今後はAIとRPAの境界がさらに曖昧になっていくと予想される
- セキュリティ面では、コンピューターの制御権限をAIに与えることが新たなリスクをもたらし得るため、厳格なアクセス制御と監視が必要になると考えられる
1件のコメント
Hacker Newsの意見