11 ポイント 投稿者 xguru 2024-01-31 | 3件のコメント | WhatsAppで共有
  • WhisperLiveおよびWhisperSpeechの機能をベースに、Mistral LLMと連携してAIとのスムーズな対話を提供
    • WhisperLive : OpenAIのWhisperをほぼリアルタイムで動作するよう実装し、音声をテキストに変換
    • WhisperSpeech : Whisperを反転させる形で構築したTTSシステム
  • LLMとWhisperはどちらもTensorRTエンジンで効率的に実行できるよう最適化されており、性能とリアルタイム処理能力を最大化。WhiperSpeechはtorch.compileで最適化

3件のコメント

 
kleinstein 2024-02-02

リアルタイム翻訳ができれば、速くて良さそうですね。

 
xguru 2024-01-31

Hacker Newsのコメント

  • 会話型シナリオをうまく機能させるために必要な2つの機能:
    • 割り込み機能: ユーザーが「ちょっと待って」と言ったときに、LLMが一時停止できる必要がある。
    • 特定の合図への反応: ユーザーが「あなたはどう思う?」のような特定の合図を待ってから反応する必要がある。
    • この2つの機能に加えて低レイテンシが重要で、まるで他の人と会話しているように感じられる必要がある。
  • WhisperFusion、WhisperLive、WhisperSpeechのようなプロジェクトへの関心を示しつつ、各システムのレイテンシやWhisperLiveのWER(Word Error Rate)の数値が気になると述べている。こうしたモデルに関する重要な情報が不足しているようだとも言及している。
  • プロジェクトは素晴らしいが、主にパッケージングの問題だと指摘:
    • 多くのPythonアプリケーションが、setuptoolsの半分を遅くてバグの多い形で実装していると批判している。
    • TensorRTが中核機能をexamplesディレクトリで配布していることに疑問を呈している。
    • huggingface_cliについては、すでに名前で何かをダウンロードする方法(PyPIインデックスなど)があり、それをモデルにも適用したほうがよいかもしれないと述べている。
  • Vocodeプロジェクトに関する議論を思い出し、10か月前にこれについての討論があり、デモを試して感銘を受けたと述べている。現在、開発や本番環境で使っている人がいるのか気になっている。
  • あるユーザーは、この技術を専用アプリに移植し、画面上の内容やテキストを認識して、ほぼリアルタイムで支援できるアシスタントを想像している。
  • Whisperをストリーミング文字起こしにうまく使う方法に興味を示し、似た目標を持つプロジェクトを紹介している。
  • LLM部分がTGWUI+llama.cpp構成とどう違うのか、あるいは似ているのかの要約を求めている。特に、ユーザーのハードウェアでは「超低レイテンシ」が実現されていないことに疑問を呈している。
  • ユーザーは、このプロジェクトが完全にローカルで動作するのか、それともOpenAIのリモートシステムへのAPIアクセスが必要なのかを尋ねている。OpenAIを使ってTTSとSTTを構築中だが、単一のコマンドを待つために絶えず音声ストリームをOpenAIへ送りたくないという考えを示している。
  • これこそSiriやAlexaがなるべき姿だったと思っており、今後数年でこの種の技術がさらに増えるだろうと予想している。ローカルで動作し、永続的な記録を残さないのであれば、バックグラウンドでの盗み聞きの問題も解決できるだろうと述べている。
  • TensorRTを使っていると述べ、どのGPUがサポートされるのか、Jetsonで動作するのかについて気になっている。