- Claudeの新しいComputer Use APIの性能を確認したかったが、標準のプロジェクトはあまりにも重そうに見えた
- Agentは、Claude 3.5 Sonnetがローカルコンピュータを直接操作できるシンプルなElectronアプリ
- ユーザーが段階ごとに確認する「半自動」モードを追加しようとしたが、各ステップが遅すぎて不要だと判断した
- モデルが混乱したら「停止」ボタンを押して実行を終了できる
はじめ方
対応システム
- MacOS
- 理論上はWindowsとLinuxも対応可能(すべての依存関係がクロスプラットフォーム)
既知の制限事項
- メインディスプレイでのみ動作
- AIがコンピュータを完全に操作できる
- おそらく他にも多くの問題がある可能性がある
ヒント
- ClaudeはFirefoxを非常に好む
- 他のブラウザも使えるが、Firefoxをインストールするとよりうまく動作する
ロードマップ
- 6時間で書いたプロジェクトなので、おそらくこれ以上は発展しない
- ただし、優れたPRがあればレビューしてマージする予定
GN⁺のまとめ
- このプロジェクトは、ClaudeのComputer Use APIを手軽に試せる方法を提供する
- AIがコンピュータを完全に操作できるため、セキュリティ上の懸念がある可能性がある
- Firefoxとの互換性が高く、主にMacOSで利用可能
- 類似機能を持つプロジェクトにはAutoHotkeyやSikuliなどがある
1件のコメント
Hacker Newsのコメント
Kyleのアイデアは素晴らしいと思う。経験豊富なデスクトップ自動化およびElectron開発者として、ソースコードを読んで基本的な作業で試してみる価値があると感じた
システムにデーモンを追加していることに気づかないまま、どれくらい時間がかかるのだろうか
数年前、ニュースで「Alexa、お人形の家を注文して」という話があったのを覚えている
LinuxのWaylandで、ブラウザ以外のGUIアプリをどう自動化するのか気になる
マルチプラットフォームを意図しているのに、しかも主にmacOSをサポートしているように見えるのに、なぜ .exe という名前なのか気になる
最近、Cursorを「compose」モードで使って、フルスタックプロジェクトをゼロから始めてみたが、その結果に驚いた
AIがコンピュータを完全に掌握するうえで、何か既知の制限はあるのか
エアギャップ環境を作って、そこに独自のOSを書かせるのは面白いかもしれないが、実データの近くには置きたくない
単純な作業にしか機能しないように見える
コンピュータが一日中ミームを作り続け、私は家族の世話をし、庭いじりをしながら暗号資産を稼ぎたい