11 ポイント 投稿者 xguru 2023-02-15 | 1件のコメント | WhatsAppで共有
  • OpenAI Whisper(音声認識モデル)をローカルで手軽に活用するための GUI および API のオープンソース
  • transcribe / detect / download などの機能を REST API として提供
  • Web ページ上で音声/動画ファイルをアップロードして処理を開始可能
  • docker-compose で起動して利用可能(redis / api / worker など 3 つの Docker コンテナを実行)
  • 最小モデルの tiny は約 1GB の VRAM を必要とする(最大の large は 10GB)