macOSPilot - macOS向けの音声+ビジョン CoPilot

(github.com/elfvingralf)

9 ポイント投稿者 GN⁺ 2023-12-13 | 1件のコメント | WhatsAppで共有

macOS上のあらゆるアプリケーションで利用可能な、音声とビジョンを使ったAIアシスタント
ショートカットキーを押して音声で質問すると、現在のコンテキストに基づいた音声回答を出力
- 現在のウィンドウのスクリーンショットを作成して、OpenAI GPT Vision に送信
- 質問は OpenAI Whisper API を使って文字起こしした後、テキストとして一緒に送信される
- 受け取ったテキスト回答を OpenAI TTS を使って音声に変換して出力
NodeJS/Electron で開発
デフォルトのショートカットは Cmd + Shift + '

1件のコメント

GN⁺ 2023-12-13

Hacker Newsの意見

プロンプトで「OSX」ではなく「macOS」という用語を使うほうがよいのか、それとも最初に選んだものを特に深く考えていなかったのか、という質問。
- 投稿者は動画をざっと見ながら疑問を示している。
- 関連するコードへのリンクを提供。
応答として、TTSの代わりにストリーミングテキストのオプションを追加することを提案。
- 音声コマンドの代わりにテキストを使うことも検討すべき。
- 同種のアシスタントを長いあいだ試してきた経験を共有し、Discordで連絡しようと提案。
Linuxの設定向けに似たスクリプトを書いたと言及。
- XFCEのキーボードショートカットと連携。
- スクリプトの使用頻度は低いと述べている。
OpenAI APIを使う際は支出上限を設定することを推奨。
- テキストモデルとビジョンモデルのコスト差をすぐに思い知るかもしれないと警告。
- 価格が近いことを確認し、好意的に評価。
プロジェクトに対する前向きな反応。
- スクリーンショットが分かりにくい部分を明確にするのに役立ちそうだと述べている。
- 使っていないときにウィンドウを隠す方法があるのか質問。
このプロジェクトを「open」AIではなくローカルLLMsで動くようにする計画があるのか質問。
ターミナル自体に統合して何かを作りたいという意見。
- スクリーンショットを避けて、ターミナル上で直接作業するほうがシンプルだと言及。
- ターミナルでAIに命令を出す形式のサンプルコードを提示。
- 忙しい日常の中で時間を取るのが難しいという嘆き。
「macOSpilotがNodeJS/Electronを使っている」という情報への否定的な反応。
デジタルオーディオワークステーションAbleton Liveと一緒に使ってみた経験を共有。
- とても便利で、時間の節約になりそうだと高く評価。
- インタラクション動画のリンクを提供。
- 否定的なコメントに対して疑問を呈している。
ls コマンドの結果を待っているあいだの生産性についての想像を共有。

macOSPilot - macOS向けの音声+ビジョン CoPilot

関連記事

1件のコメント

Hacker Newsの意見