macOSPilot - macOS向けの音声+ビジョン CoPilot
(github.com/elfvingralf)- macOS上のあらゆるアプリケーションで利用可能な、音声とビジョンを使ったAIアシスタント
- ショートカットキーを押して音声で質問すると、現在のコンテキストに基づいた音声回答を出力
- 現在のウィンドウのスクリーンショットを作成して、OpenAI GPT Vision に送信
- 質問は OpenAI Whisper API を使って文字起こしした後、テキストとして一緒に送信される
- 受け取ったテキスト回答を OpenAI TTS を使って音声に変換して出力
- NodeJS/Electron で開発
- デフォルトのショートカットは Cmd + Shift + '
1件のコメント
Hacker Newsの意見
プロンプトで「OSX」ではなく「macOS」という用語を使うほうがよいのか、それとも最初に選んだものを特に深く考えていなかったのか、という質問。
応答として、TTSの代わりにストリーミングテキストのオプションを追加することを提案。
Linuxの設定向けに似たスクリプトを書いたと言及。
OpenAI APIを使う際は支出上限を設定することを推奨。
プロジェクトに対する前向きな反応。
このプロジェクトを「open」AIではなくローカルLLMsで動くようにする計画があるのか質問。
ターミナル自体に統合して何かを作りたいという意見。
「macOSpilotがNodeJS/Electronを使っている」という情報への否定的な反応。
デジタルオーディオワークステーションAbleton Liveと一緒に使ってみた経験を共有。
lsコマンドの結果を待っているあいだの生産性についての想像を共有。