10 ポイント 投稿者 GN⁺ 2024-10-23 | 1件のコメント | WhatsAppで共有
  • AnthropicがアップグレードされたClaude 3.5 Sonnetと、新モデルのClaude 3.5 Haikuを発表
  • Claudeに人間のようにコンピューターを使うよう指示できるComputer Use機能を、パブリックベータとして新たに導入
  • 既存の価格と速度を維持しながら、全体的な性能が向上

Computer Use機能の紹介

  • 開発者はAPIを通じて、Claudeが実際の人間のようにコンピューターを使用するよう指示できる
  • 画面の確認、カーソル移動、ボタンのクリック、テキスト入力などの作業が可能
  • 現在は実験段階のため、ときどき使いづらさやエラーが発生する可能性がある
  • Asana、Canva、Cognition、DoorDash、Replit、The Browser Companyはすでに、数十段階、時には数百段階を要する作業を実行するため、この可能性の検証を始めている

Claude 3.5 Sonnet: 業界最高水準のソフトウェアエンジニアリング能力

  • 更新版のClaude 3.5 Sonnetは業界ベンチマークで幅広い改善を示し、特にエージェントコーディングおよびツール使用タスクで強力な性能向上を見せている
  • SWE-bench Verifiedでは33.4%から49.0%へ性能が向上し、公開利用可能なすべてのモデルを上回るスコアを記録
  • TAU-benchでも小売ドメインで62.6%から69.2%へ、航空会社ドメインで36.0%から46.0%へ性能が向上
  • GitLab、Cognition、The Browser Companyなど顧客企業からの初期フィードバックによると、Claude 3.5 SonnetはAIベースのコーディングにおける大きな飛躍を示している

Claude 3.5 Haiku: 最先端技術に経済性と速度を組み合わせたモデル

  • Claude 3.5 Haikuは最速モデルの次世代版
  • 前世代のHaikuと同じコスト、同等の速度で、あらゆる技術分野において改善されており、従来の最大モデルであるClaude 3 Opusを上回る
  • 特にコーディング作業に強みを持ち、SWE-bench Verifiedで40.6%を記録し、既存のClaude 3.5 SonnetやGPT-4oを含む公開最先端モデルを用いた多くのエージェントを上回る
  • 低レイテンシ、向上した指示追従性、より正確なツール使用といった特徴により、ユーザー向け製品、専門的なサブエージェント業務、大規模データからパーソナライズされた体験を生成する用途に適している

Claudeに責任あるコンピューター操作を教える

  • Computer Use機能を通じて、根本的に新しい試みに取り組んでいる
  • 個別の作業を完了するための特定ツールを作る代わりに、Claudeに汎用的なコンピューター操作スキルを教えている
  • 開発者はこの初期機能を使って、反復的なプロセスの自動化、ソフトウェアの構築とテスト、研究のようなオープンエンドな作業を行える
  • OSWorldでは、Claude 3.5 Sonnetがスクリーンショット専用カテゴリで14.9%を記録し、次点のAIシステムの7.8%を大きく上回った
  • Computer Use機能はまだ不完全であり、スパム、誤情報、詐欺などの脅威に対する新たな経路となり得るため、安全な展開に向けて先回りのアプローチを取っている

Computer Useの今後の展望

  • 初期段階にあるこの技術の初期展開から学ぶことは、ますます強力になるAIシステムの可能性と影響をよりよく理解する助けになるはず
  • 新モデルとComputer Use機能のパブリックベータ版を試し、フィードバックを共有してほしいとしている
  • これらの開発が、Claudeとの協業のあり方に新たな可能性を開くと考えている

GN⁺の見解

  • Computer Use機能はRPA(Robotic Process Automation)に似ているが、より柔軟で汎用的なアプローチを提供するように見える
  • 企業の反復的な業務の自動化に大きく役立つと見込まれるが、初期段階ではエラー発生の可能性を考慮し、重要度の低い作業から始めるのが望ましい
  • この機能はPower Automate、UiPathなど既存のRPAツールと競合するとみられ、今後はAIとRPAの境界がさらに曖昧になっていくと予想される
  • セキュリティ面では、コンピューターの制御権限をAIに与えることが新たなリスクをもたらし得るため、厳格なアクセス制御と監視が必要になると考えられる

1件のコメント

 
GN⁺ 2024-10-23
Hacker Newsの意見
  • Sonnetがaiderのコード編集リーダーボードで84.2%で1位を獲得。"architect"モードを使うとSOTAを85.7%に更新。"editor"モデルとしてDeepSeekを使用
    • Sonnetはより難しいリファクタリングベンチマークでも92.1%でSOTAを記録
  • Claude 3.5 OpusがAnthropicの公式ドキュメントでこれ以上言及されなくなった。これはリリースが遅延しているか、取りやめになったことを示唆している
  • AI SaaS製品を開発している立場として、API統合がAI自動化の大半を解決すると思っていたが、実際には多くのソフトウェアが人間と直接インターフェースしていることに気づいた
    • たとえば、医師である義兄はWindowsでMFCフォームを使うカスタムソフトウェアを使用し、会計士はCantaxという強力なソフトウェアを使っている
    • SaaS分野にいると、誰もがクライアントサーバー型のバックエンドAPIを持っているはずだと信じがちだが、現実はそうではない
  • コンピュータ使用能力は非常に印象的
    • これは単にコンピュータを道具として使うエージェントではなく、目標を設定するとそれを達成するためにコンピュータとブラウザを活用する自律的な推論エージェント
    • OpenAI GPT-o1を上回る可能性がある
  • AnthropicのAI安全性への注力は興味深い。AIがコンピュータとブラウザを使って、要求された目標を達成できる能力を持つ
  • Claudeはこの8か月間ChatGPTより優れていたが、ユーザーベースは少ない
  • SonnetとOpusの違いが明確ではない。AnthropicのWebサイトではOpusが最も高度なモデルだとしている一方、別の箇所ではSonnetが最も高速で高度なモデルだとしている
    • 手動テストの結果、Opusのほうがわずかに良い応答を返していると感じたが、確信は持てない
  • Claudeを使ったコーディングデモには、さらに多くの議論が必要
    • 真のエンドユーザープログラミングやプロダクトマネージャープログラミングがまもなく到来する可能性がある
  • 新しいAPIでのトレーニング中に面白いことが起きた
    • Claudeが長時間の画面録画を停止してすべての映像が失われたり、コーディングデモ中にYellowstone国立公園の写真を見たりすることがあった