Pi-C.A.R.D
目次
紹介
- Pi-cardは、Raspberry Pi上で完全に動作するAIベースの音声アシスタントです。
- 一般的な会話の設定において、ChatGPTのような標準的なLLMができることはすべて実行できます。
- カメラが搭載されている場合、Pi-cardに写真を撮らせたり、見えているものを説明させたり、その画像について質問したりできます。
なぜPi-cardなのか?
- Raspberry Pi - C amera A udio R ecognition D evice の略です。
- もっと良い略称を思いついたら、issueやpull requestを送ってほしいとのことです。
どのように動作するのか?
- Pi-cardはRaspberry Pi上で完全に動作します。
- メインプログラムが起動すると、システムはウェイクワードの待機を開始します。
- ウェイクワードを話すと会話が始まり、会話中はウェイクワードを繰り返し言う必要はありません。
- 「止まって」「終了」「さようなら」などと言うまで、コマンドを聞き続けます。
- 会話中はシステムが文脈を保持するため、以前の話題を繰り返したり詳しく説明したりできます。
- システムは完全にローカルで動作するよう設計されていますが、外部APIやサービスを接続して会話を強化したり、外部デバイスを制御したりすることもできます。
- たとえば、「写真を撮って」や「何が見える?」と言うとカメラが有効になります。
どれくらい実用的か?
- このシステムは楽しいプロジェクトとして設計されており、ある程度実用的なAIアシスタントでもあります。
- すべての処理がローカルで行われるため、クラウドベースのシステムほど高速でも高性能でもありません。
- それでも、まだ多くの改善の余地があります。
なぜアプリではないのか?
- 完全にオフラインで動作し、インターネット接続を必要としない音声アシスタントを作りたかったためです。
- これは、ユーザーのプライバシーを保護し、ユーザーデータが第三者のサーバーに送信されないようにするためです。
使い方
- リポジトリをダウンロードして必要要件をインストールし、ほかの設定手順に従ったあと、次のコマンドでメインプログラムを実行できます。
python assistant.py
- プログラムが起動したら、ウェイクワードを話してアシスタントとの会話を開始できます。
- デフォルトのウェイクワードは "hey assistant" ですが、
config.py ファイルで変更できます。
ハードウェア
- Raspberry Pi 5 Model B
- USBマイク
- スピーカー
- カメラ
設定
ソフトウェア
- システムをできるだけ高速かつ軽量に保つため、音声文字起こしと視覚言語モデルにはcpp実装を使用しています。
- 音声文字起こしには whipser.cpp ライブラリを、視覚言語モデルには llama.cpp ライブラリを使用しています。
- 各リポジトリを任意の場所にクローンし、そのパスを
config.py ファイルに追加する必要があります。
- クローン後、各リポジトリへ移動して、モデルを実行するための設定手順に従ってください。
ハードウェア
- ハードウェアの設定は非常に簡単です。
- Raspberry Pi 5 Model B、USBマイク、スピーカー、カメラが必要です。
- USBマイクとスピーカーはRaspberry PiのUSBポートに接続できます。
- カメラはRaspberry Piのカメラポートに接続できます。
- 使用したハードウェア:
- Raspberry Pi 5キット
- USBマイク
- スピーカー
- カメラ
- カメラコネクタ
- Pi 5には新しいカメラポートがあるため、新しいカメラコネクタが必要です。
GN⁺の意見
- Pi-cardはRaspberry Piを活用した興味深いプロジェクトであり、AIとハードウェアの組み合わせを通じてさまざまな可能性を探れます。
- 完全にオフラインで動作するため、プライバシー保護の面で大きな利点があります。
- クラウドベースのシステムと比べると性能は劣る可能性がありますが、ローカルで動作するためデータの安全性は高まります。
- 類似の機能を提供する他のプロジェクトとしては、Mycroft AIやJasperがあります。
- この技術を導入する際は、ハードウェアとソフトウェアの設定がやや複雑になる可能性があるため、十分な事前準備が必要です.
まだコメントはありません。