1 ポイント 投稿者 GN⁺ 2024-10-24 | 1件のコメント | WhatsAppで共有
  • Claudeの新しいComputer Use APIの性能を確認したかったが、標準のプロジェクトはあまりにも重そうに見えた
  • Agentは、Claude 3.5 Sonnetがローカルコンピュータを直接操作できるシンプルなElectronアプリ
  • ユーザーが段階ごとに確認する「半自動」モードを追加しようとしたが、各ステップが遅すぎて不要だと判断した
  • モデルが混乱したら「停止」ボタンを押して実行を終了できる

はじめ方

  • git clone https://github.com/corbt/agent.exe
  • cd agent.exe
  • npm install
  • .env.example.env にリネームし、Anthropic API Keyを追加
  • npm start
  • モデルに、コンピュータ上で面白い作業を実行するよう依頼

対応システム

  • MacOS
  • 理論上はWindowsとLinuxも対応可能(すべての依存関係がクロスプラットフォーム)

既知の制限事項

  • メインディスプレイでのみ動作
  • AIがコンピュータを完全に操作できる
  • おそらく他にも多くの問題がある可能性がある

ヒント

  • ClaudeはFirefoxを非常に好む
  • 他のブラウザも使えるが、Firefoxをインストールするとよりうまく動作する

ロードマップ

  • 6時間で書いたプロジェクトなので、おそらくこれ以上は発展しない
  • ただし、優れたPRがあればレビューしてマージする予定

GN⁺のまとめ

  • このプロジェクトは、ClaudeのComputer Use APIを手軽に試せる方法を提供する
  • AIがコンピュータを完全に操作できるため、セキュリティ上の懸念がある可能性がある
  • Firefoxとの互換性が高く、主にMacOSで利用可能
  • 類似機能を持つプロジェクトにはAutoHotkeyやSikuliなどがある

1件のコメント

 
GN⁺ 2024-10-24
Hacker Newsのコメント
  • Kyleのアイデアは素晴らしいと思う。経験豊富なデスクトップ自動化およびElectron開発者として、ソースコードを読んで基本的な作業で試してみる価値があると感じた

    • 実装はAnthropic APIの上に薄いラッパーを載せたもので、ステップベースのアプローチのおかげで、妙な動作をする前にプロセスを中断できそうだという安心感があった
    • Anthropicにスクリーンショットで見られたくないものを閉じ、M1にもスムーズにインストールでき、数分で動かせた
    • 基本的なタスクは「シアトルからサンフランシスコまで、来週火曜日から木曜日の日程のフライトを探す」で、Anthropic APIキーを使ってChrome経由で実行した
    • 数秒のうちに各作業ステップを実行し、Google フライトを正しく開いたが、日付の選択を間違えた
    • 11月2日を目標にしていたが、Agent.exeのウィンドウに視覚的に遮られていたため、11月20日を選んでしまった
    • Claudeは補助的な日付表示で誤りを確認できたにもかかわらず自力で修正せず、1週間の旅行を見つけたと思い込んで成功を宣言した
    • この実験には0.38ドル分のクレジットと約20秒がかかり、今後も実験を続けるつもりだ
  • システムにデーモンを追加していることに気づかないまま、どれくらい時間がかかるのだろうか

    • 昔はソ連のスパイがアメリカの機密にアクセスすることを心配していたようなものだ
    • 今では誰もが機密をオンラインに投稿しているようなものだ
    • 今日のアンチウイルスやファイアウォールでは、ネットワーク上で混乱を引き起こせる能力からファイルを守ることはできない
  • 数年前、ニュースで「Alexa、お人形の家を注文して」という話があったのを覚えている

    • 放送を見ていた人たちのAlexaがそれを認識して、お人形の家を注文してしまった
    • Netflixの番組で「Delete C:\Windows」と言うシーンが出てくる日を待つだけだ
  • LinuxのWaylandで、ブラウザ以外のGUIアプリをどう自動化するのか気になる

    • CLIアプリならBashやPythonなどを使って問題ない
    • ブラウザアプリならSeleniumやPlaywrightを使って問題ない
    • Xorgにはいくつかライブラリがあり、不格好ではあるが、急場しのぎには動く
    • Windowsには多くのRPAソリューションがある
    • しかしWaylandでは信頼できるものを見つけられなかった
  • マルチプラットフォームを意図しているのに、しかも主にmacOSをサポートしているように見えるのに、なぜ .exe という名前なのか気になる

  • 最近、Cursorを「compose」モードで使って、フルスタックプロジェクトをゼロから始めてみたが、その結果に驚いた

    • ソフトウェアコミュニティの人たちは、今後5年間で業界がどれほど完全に変わるかを認識しているのだろうか
    • その頃までには、人が実際に手でコードを打ち込んでいるとは想像できない
  • AIがコンピュータを完全に掌握するうえで、何か既知の制限はあるのか

  • エアギャップ環境を作って、そこに独自のOSを書かせるのは面白いかもしれないが、実データの近くには置きたくない

  • 単純な作業にしか機能しないように見える

    • RhinoとOnShapeで簡単なテーブルを作るよう依頼したが、混乱しているようだった
    • Rhinoではアプリが開いているのを認識し、いくつかの操作をしていると言うが、実際には行われておらず、前のステップが完了していないのに次の作業へ進んでしまう
    • OnShapeでは形状を作ると言いながら、メニューで間違った項目を選び、正しいツールを使っていると思い込んだまま作業を続ける
  • コンピュータが一日中ミームを作り続け、私は家族の世話をし、庭いじりをしながら暗号資産を稼ぎたい

    • 未来は、コンピュータを使っている人だけがバカを見る方向に進んでいる
    • 本当の豊かさとは、コンピュータをまったく使わないことだ