対話型オーディオ向け初のオープンソースベースモデル、Hertz-dev
(si.inc)-
Standard Intelligenceは、スケーラブルなクロスモダリティ学習を研究しており、オーディオ専用のTransformerベースモデルであるhertz-devをオープンソースとして公開した。
-
hertz-devは85億のパラメータを持ち、オーディオモデリングに特化している。
-
hertz-codec
- モノラル16kHz音声を8Hzの潜在表現に変換する畳み込みオーディオオートエンコーダである。
- 1kbpsビットレートでSoundstreamおよびEncodecを上回り、DACに近い性能を示す。
- 500万のエンコーダパラメータと9500万のデコーダパラメータを持つ。
-
hertz-vae
- 18億のパラメータを持つTransformerデコーダで、オーディオVAEの学習済み事前分布として機能する。
- 8192個のサンプリングされた潜在表現を使って、次のエンコード済みオーディオフレームを予測する。
-
hertz-dev
- 66億のパラメータを持つTransformerスタックである。
- 事前学習済み言語モデルの重みで一部を初期化し、5000億トークンで単一エポックの学習を行った。
- このモデルは、研究者がさまざまなタスク向けにファインチューニングするための適した出発点である。
- RTX 4090での理論上のレイテンシは65ms、実測平均レイテンシは120msである。
-
今後の展望
- Hertz-devは、リアルタイム音声インタラクションの未来を垣間見せるモデルであり、研究者が容易にファインチューニングおよび拡張できるモデルである。
- より大規模なバージョンのHertzを開発中であり、これは強化学習によるチューニングを通じて、モデルの生の能力と最終的な一貫性を大幅に向上させる予定である。
-
サンプル生成
- hertz-devのオーディオモデリング能力を示すため、シングルチャネルおよびデュアルチャネル生成と、モデルと人間のリアルタイム対話のサンプルを提供している。
-
Standard Intelligenceの目標
- 汎用人工知能の構築を目標としており、現在は4人のチームで構成されている。
- AGIの構築に関心のある人材を募集しており、投資に関心のある人からの連絡も歓迎している。
1件のコメント
Hacker Newsのコメント
音声モデルに取り組んでいる人たちは、システムから出る音が生理学的な影響を及ぼすのか気にしている
Hertzが最初のモデルだと言っているが、Moshiという類似モデルがある
Teslaの純粋なビジョンベースの自動運転アプローチは、技術をより利用しやすく、スケーラブルにしている
音声インタラクションシステムのアイデアを探っている
モデル重みのライセンスが何なのか気になる
音声サンプルはしばしば意味不明な音を出すが、音響的には素晴らしい
VUI(Voice User Interface)を探っており、有用だと思う
コーデックのパラメータが2010年の軍用音声コーデックを思い出させる
音声が少し歪んで聞こえ、背景ノイズがある
Hertz-devリポジトリリンク