13 ポイント 投稿者 xguru 2023-11-07 | 4件のコメント | WhatsAppで共有
  • 視覚障害者のためにボランティアとつないで画面を読み上げる「Be My Eyes」サービスを、AIで似た形に実装
  • マルチモーダルバックエンドを通じて映像を見て、それが何かをリアルタイムで説明してくれるウェブアプリ
  • オープンソースのマルチモーダルモデルであるSkunkworksAIのBakLLaVA-1モデルをllama.cppで実行し、音声はWeb Speech APIで出力

4件のコメント

 
botplaysdice 2023-11-08

わあ、こういうものを見ると、エンジニアであることを誇らしく感じます。視覚障害者の方々に本当に大きな助けになりそうですね。

 
hi098123 2023-11-08

ユーチューバーのワンショット・ハンソルが使っていた『サリバン・プラス』というアプリもあります。
テキスト認識だけでなく、物体の特徴まで把握できるようでした。
https://youtu.be/EAKGU-uW6Ek
https://www.mysullivan.org/

 
hero512 2023-11-07

こういう知らせは本当にうれしいですね(笑)。うちの娘が視覚障害者なので。