Anthropic、Computer Use機能とClaude 3.5 Sonnet/Haikuモデルを公開

(anthropic.com)

10 ポイント投稿者 GN⁺ 2024-10-23 | 1件のコメント | WhatsAppで共有

AnthropicがアップグレードされたClaude 3.5 Sonnetと、新モデルのClaude 3.5 Haikuを発表
Claudeに人間のようにコンピューターを使うよう指示できるComputer Use機能を、パブリックベータとして新たに導入
既存の価格と速度を維持しながら、全体的な性能が向上

Computer Use機能の紹介

開発者はAPIを通じて、Claudeが実際の人間のようにコンピューターを使用するよう指示できる
画面の確認、カーソル移動、ボタンのクリック、テキスト入力などの作業が可能
現在は実験段階のため、ときどき使いづらさやエラーが発生する可能性がある
Asana、Canva、Cognition、DoorDash、Replit、The Browser Companyはすでに、数十段階、時には数百段階を要する作業を実行するため、この可能性の検証を始めている

Claude 3.5 Sonnet: 業界最高水準のソフトウェアエンジニアリング能力

更新版のClaude 3.5 Sonnetは業界ベンチマークで幅広い改善を示し、特にエージェントコーディングおよびツール使用タスクで強力な性能向上を見せている
SWE-bench Verifiedでは33.4%から49.0%へ性能が向上し、公開利用可能なすべてのモデルを上回るスコアを記録
TAU-benchでも小売ドメインで62.6%から69.2%へ、航空会社ドメインで36.0%から46.0%へ性能が向上
GitLab、Cognition、The Browser Companyなど顧客企業からの初期フィードバックによると、Claude 3.5 SonnetはAIベースのコーディングにおける大きな飛躍を示している

Claude 3.5 Haiku: 最先端技術に経済性と速度を組み合わせたモデル

Claude 3.5 Haikuは最速モデルの次世代版
前世代のHaikuと同じコスト、同等の速度で、あらゆる技術分野において改善されており、従来の最大モデルであるClaude 3 Opusを上回る
特にコーディング作業に強みを持ち、SWE-bench Verifiedで40.6%を記録し、既存のClaude 3.5 SonnetやGPT-4oを含む公開最先端モデルを用いた多くのエージェントを上回る
低レイテンシ、向上した指示追従性、より正確なツール使用といった特徴により、ユーザー向け製品、専門的なサブエージェント業務、大規模データからパーソナライズされた体験を生成する用途に適している

Claudeに責任あるコンピューター操作を教える

Computer Use機能を通じて、根本的に新しい試みに取り組んでいる
個別の作業を完了するための特定ツールを作る代わりに、Claudeに汎用的なコンピューター操作スキルを教えている
開発者はこの初期機能を使って、反復的なプロセスの自動化、ソフトウェアの構築とテスト、研究のようなオープンエンドな作業を行える
OSWorldでは、Claude 3.5 Sonnetがスクリーンショット専用カテゴリで14.9%を記録し、次点のAIシステムの7.8%を大きく上回った
Computer Use機能はまだ不完全であり、スパム、誤情報、詐欺などの脅威に対する新たな経路となり得るため、安全な展開に向けて先回りのアプローチを取っている

Computer Useの今後の展望

初期段階にあるこの技術の初期展開から学ぶことは、ますます強力になるAIシステムの可能性と影響をよりよく理解する助けになるはず
新モデルとComputer Use機能のパブリックベータ版を試し、フィードバックを共有してほしいとしている
これらの開発が、Claudeとの協業のあり方に新たな可能性を開くと考えている

GN⁺の見解

Computer Use機能はRPA(Robotic Process Automation)に似ているが、より柔軟で汎用的なアプローチを提供するように見える
企業の反復的な業務の自動化に大きく役立つと見込まれるが、初期段階ではエラー発生の可能性を考慮し、重要度の低い作業から始めるのが望ましい
この機能はPower Automate、UiPathなど既存のRPAツールと競合するとみられ、今後はAIとRPAの境界がさらに曖昧になっていくと予想される
セキュリティ面では、コンピューターの制御権限をAIに与えることが新たなリスクをもたらし得るため、厳格なアクセス制御と監視が必要になると考えられる

1件のコメント

GN⁺ 2024-10-23

Hacker Newsの意見

Sonnetがaiderのコード編集リーダーボードで84.2%で1位を獲得。"architect"モードを使うとSOTAを85.7%に更新。"editor"モデルとしてDeepSeekを使用
- Sonnetはより難しいリファクタリングベンチマークでも92.1%でSOTAを記録
Claude 3.5 OpusがAnthropicの公式ドキュメントでこれ以上言及されなくなった。これはリリースが遅延しているか、取りやめになったことを示唆している
AI SaaS製品を開発している立場として、API統合がAI自動化の大半を解決すると思っていたが、実際には多くのソフトウェアが人間と直接インターフェースしていることに気づいた
- たとえば、医師である義兄はWindowsでMFCフォームを使うカスタムソフトウェアを使用し、会計士はCantaxという強力なソフトウェアを使っている
- SaaS分野にいると、誰もがクライアントサーバー型のバックエンドAPIを持っているはずだと信じがちだが、現実はそうではない
コンピュータ使用能力は非常に印象的
- これは単にコンピュータを道具として使うエージェントではなく、目標を設定するとそれを達成するためにコンピュータとブラウザを活用する自律的な推論エージェント
- OpenAI GPT-o1を上回る可能性がある
AnthropicのAI安全性への注力は興味深い。AIがコンピュータとブラウザを使って、要求された目標を達成できる能力を持つ
Claudeはこの8か月間ChatGPTより優れていたが、ユーザーベースは少ない
SonnetとOpusの違いが明確ではない。AnthropicのWebサイトではOpusが最も高度なモデルだとしている一方、別の箇所ではSonnetが最も高速で高度なモデルだとしている
- 手動テストの結果、Opusのほうがわずかに良い応答を返していると感じたが、確信は持てない
Claudeを使ったコーディングデモには、さらに多くの議論が必要
- 真のエンドユーザープログラミングやプロダクトマネージャープログラミングがまもなく到来する可能性がある
新しいAPIでのトレーニング中に面白いことが起きた
- Claudeが長時間の画面録画を停止してすべての映像が失われたり、コーディングデモ中にYellowstone国立公園の写真を見たりすることがあった

Anthropic、Computer Use機能とClaude 3.5 Sonnet/Haikuモデルを公開

Computer Use機能の紹介

Claude 3.5 Sonnet: 業界最高水準のソフトウェアエンジニアリング能力

Claude 3.5 Haiku: 最先端技術に経済性と速度を組み合わせたモデル

Claudeに責任あるコンピューター操作を教える

Computer Useの今後の展望

GN⁺の見解

関連記事

1件のコメント

Hacker Newsの意見