2 ポイント 投稿者 GN⁺ 2024-11-04 | 1件のコメント | WhatsAppで共有
  • Standard Intelligenceは、スケーラブルなクロスモダリティ学習を研究しており、オーディオ専用のTransformerベースモデルであるhertz-devをオープンソースとして公開した。

  • hertz-devは85億のパラメータを持ち、オーディオモデリングに特化している。

  • hertz-codec

    • モノラル16kHz音声を8Hzの潜在表現に変換する畳み込みオーディオオートエンコーダである。
    • 1kbpsビットレートでSoundstreamおよびEncodecを上回り、DACに近い性能を示す。
    • 500万のエンコーダパラメータと9500万のデコーダパラメータを持つ。
  • hertz-vae

    • 18億のパラメータを持つTransformerデコーダで、オーディオVAEの学習済み事前分布として機能する。
    • 8192個のサンプリングされた潜在表現を使って、次のエンコード済みオーディオフレームを予測する。
  • hertz-dev

    • 66億のパラメータを持つTransformerスタックである。
    • 事前学習済み言語モデルの重みで一部を初期化し、5000億トークンで単一エポックの学習を行った。
    • このモデルは、研究者がさまざまなタスク向けにファインチューニングするための適した出発点である。
    • RTX 4090での理論上のレイテンシは65ms、実測平均レイテンシは120msである。
  • 今後の展望

    • Hertz-devは、リアルタイム音声インタラクションの未来を垣間見せるモデルであり、研究者が容易にファインチューニングおよび拡張できるモデルである。
    • より大規模なバージョンのHertzを開発中であり、これは強化学習によるチューニングを通じて、モデルの生の能力と最終的な一貫性を大幅に向上させる予定である。
  • サンプル生成

    • hertz-devのオーディオモデリング能力を示すため、シングルチャネルおよびデュアルチャネル生成と、モデルと人間のリアルタイム対話のサンプルを提供している。
  • Standard Intelligenceの目標

    • 汎用人工知能の構築を目標としており、現在は4人のチームで構成されている。
    • AGIの構築に関心のある人材を募集しており、投資に関心のある人からの連絡も歓迎している。

1件のコメント

 
GN⁺ 2024-11-04
Hacker Newsのコメント
  • 音声モデルに取り組んでいる人たちは、システムから出る音が生理学的な影響を及ぼすのか気にしている

    • 既存のオープンソースTTSエンジンよりはるかに優れたモデルである
    • マルチモーダル機能を追加してテキストも受け付けられるとよい
    • Piperのような出力を、より自然なイントネーションで再生するように微調整できる
    • テキストLLMをPiperに、PiperをHertz-devにつなげば有用だろう
  • Hertzが最初のモデルだと言っているが、Moshiという類似モデルがある

  • Teslaの純粋なビジョンベースの自動運転アプローチは、技術をより利用しやすく、スケーラブルにしている

    • 大規模なデータセットを収集することで高速な反復を可能にする
    • 成熟段階に達したら、追加のセンサーデータを再統合する可能性がある
  • 音声インタラクションシステムのアイデアを探っている

    • 現在、ほとんどの音声インタラクションは、音声をテキストに変換してから再びオーディオに変換している
    • テキストを経由せず直接音声で応答するシステムを開発できれば、自然で即興的な応答を生成できるだろう
    • 音声インタラクションモデルが標準的な音声→テキスト→音声の過程に従うのか、それとも音声→音声処理を探っているのか気になる
  • モデル重みのライセンスが何なのか気になる

  • 音声サンプルはしばしば意味不明な音を出すが、音響的には素晴らしい

    • SDやLLMsでは小さな変化への反応を調べることでデバッグできる
    • Hertz-devは入力として音を使うため、どのトークンを調整すべきか見分けにくい
    • リアルタイム利用では fiddling は不可能である
    • Hertz-devの挙動を体系的に研究する方法が気になる
  • VUI(Voice User Interface)を探っており、有用だと思う

    • VUIはコンピューターインタラクションの未来だと考えている
    • 子どもや高齢者を新しいユーザー層として追加できる
  • コーデックのパラメータが2010年の軍用音声コーデックを思い出させる

    • 120msフレームを使用し、16KHzオーディオでエンコードされている
    • IEEEリンク
  • 音声が少し歪んで聞こえ、背景ノイズがある

    • モデルの限界なのか、訓練データの品質の問題なのか気になる
  • Hertz-devリポジトリリンク