LLaMA-Omni - LLMとのシームレスな音声インタラクション
(github.com/ictnlp)- 低遅延で高品質なエンドツーエンドの音声インタラクションモデル
- Llama-3.1-8B-Instruct をベースに構築され、GPT-4o レベルの音声機能の実現を目指す
- 226ms の低遅延
- テキストと音声の応答を同時に生成
GN⁺の要約
- LLaMA-Omni は Llama-3.1-8B-Instruct ベースの音声言語モデルで、低遅延かつ高品質な音声インタラクションをサポートする
- テキストと音声の応答を同時に生成でき、さまざまな応用分野で有用
- 4 基の GPU で 3 日以内に学習を完了でき、効率的
- Gradio デモを通じて簡単に操作でき、ローカル推論も可能
- 類似機能を持つプロジェクトとして、OpenAI の Whisper や Google の Speech-to-Text API がある
1件のコメント
Hacker Newsの意見