LLaVaVision - llama.cpp/llavaで作られた「Be My Eyes」ウェブアプリ
(github.com/lxe)- 視覚障害者のためにボランティアとつないで画面を読み上げる「Be My Eyes」サービスを、AIで似た形に実装
- マルチモーダルバックエンドを通じて映像を見て、それが何かをリアルタイムで説明してくれるウェブアプリ
- オープンソースのマルチモーダルモデルであるSkunkworksAIのBakLLaVA-1モデルをllama.cppで実行し、音声はWeb Speech APIで出力
4件のコメント
わあ、こういうものを見ると、エンジニアであることを誇らしく感じます。視覚障害者の方々に本当に大きな助けになりそうですね。
ユーチューバーのワンショット・ハンソルが使っていた『サリバン・プラス』というアプリもあります。
テキスト認識だけでなく、物体の特徴まで把握できるようでした。
https://youtu.be/EAKGU-uW6Ek
https://www.mysullivan.org/
Be My Eyes - 視覚障害者に視力を届ける
MSの画像キャプションAIが人間のように写真を描写し始める
こういう知らせは本当にうれしいですね(笑)。うちの娘が視覚障害者なので。