41 ポイント 投稿者 GN⁺ 2025-04-22 | 13件のコメント | WhatsAppで共有
  • Diaはテキストのセリフに基づいて高品質な対話音声を生成する1.6BパラメータのTTSモデルで、音声プロンプトを通じて感情・トーンの調整が可能
  • Nari Labsが開発し、「Nari」は純粋な韓国語で「ユリ」を意味する
  • [S1], [S2]で話者を指定でき、(laughs), (coughs) などの非言語表現も生成可能で、簡単な音声クローニングにも対応
  • Hugging Faceですぐに実行可能で、別途インストール不要のブラウザベースのテストとZeroGPU対応も提供
  • 現時点では英語のみ対応、10GB以上のVRAMが必要で、今後量子化モデル多言語対応などを予定

Dia: 対話中心の音声合成モデル

  • DiaはNari Labsが開発した1.6BパラメータのオープンウェイトTTSモデル
  • 従来のTTSのように話者ごとの音声を分けて生成するのではなく、対話全体を一度に生成する方式を採用
  • デモ: Hugging Face Space
  • コード: GitHub リポジトリ

主な機能

対話型音声生成

  • テキスト内の [S1], [S2] で話者を指定可能
  • (laughs), (coughs) など非言語的なサウンドもテキストで挿入可能
  • 感情、トーン、声のスタイルを音声プロンプトで指定可能

音声クローニング

  • サンプル音声とそのセリフをテキストで一緒に提供すると音声クローニング機能が有効化
  • Hugging Face Spaceで音声をアップロードして試用可能
  • 詳細な例は example/voice_clone.py を参照

ライブラリとして使用

from dia.model import Dia  
model = Dia.from_pretrained("nari-labs/Dia-1.6B")  
output = model.generate(text)  
  • soundfile でMP3出力が可能
  • PyPIパッケージとCLIツールも近日提供予定

インストールと実行

すぐに試す方法(Gradioベース)

git clone https://github.com/nari-labs/dia.git  
cd dia && uv run app.py  

または uv がない場合:

cd dia  
python -m venv .venv  
source .venv/bin/activate  
pip install uv  
uv run app.py  
  • 実行時にDescript Audio Codecを自動ダウンロード
  • 実行のたびに音声がランダム生成されるため、一貫性のためにはプロンプトやseedの固定が必要

性能とハードウェア要件

  • テスト環境: PyTorch 2.0+, CUDA 12.6以上
  • 推奨VRAM: 10GB以上量子化(Quantized)版のリリースも近日予定
  • A4000 GPU基準で約40トークン/秒を生成(86トークン = 約1秒の音声)
  • torch.compile 使用時は高速化の可能性あり

今後の計画とTODO

  • Docker対応
  • 推論速度の最適化
  • モデル量子化(メモリ効率化)
  • 多言語対応、より多くの話者への対応など拡張を検討中

ライセンスと利用制限

  • Apache 2.0 ライセンスを適用
  • 禁止される利用例:
    • 他人の音声を許可なく生成すること(Identity Misuse)
    • 虚偽情報の生成(Fake News など)
    • 違法・悪意ある目的

コミュニティと貢献

  • 研究人員: フルタイム1名 + パートタイム1名で構成された小規模チーム
  • Discord サーバー を通じてフィードバック共有や機能提案が可能
  • コントリビューターとともに成長するオープンソース志向のプロジェクト

参考と技術的基盤

  • サウンドモデル: SoundStorm, Parakeet, Descript Audio Codec から着想を得ている
  • 計算基盤: Google TPU Research Cloud、Hugging Face ZeroGPUプログラム
  • 「Nari」は純粋な韓国語で「ユリ」を意味する

13件のコメント

 
reagea0 2025-04-24

わあ、とても良いですね。お二人で進めるには、学習データの確保まで簡単ではなかったはずなのに、本当にすごいです。

 
princox 2025-04-24

作者ご本人の登場ですね〜。私も一度使ってみないと。

 
kleinstein 2025-04-22

韓国語対応に期待です!!

 
toebee 2025-04-22

おお、これ私が作って投稿しようと思っていたのですが、もう素早く投稿してくださっていたんですね。ありがとうございます。

 
winterjung 2025-04-22

韓国の方が作られたものだったんですね! デモページで比較しながら聴いてみたら、性能が本当に素晴らしいですね。オーディオプロンプトを与えると、その声を参照するのでしょうか? s1、s2に分かれた例をそれぞれ入れる必要があるのか気になります。

 
toebee 2025-04-22

ありがとうございます! 音声プロンプトに [S1][S2] に区別された例を入れる必要はありません。[S1] だけを入れてもよく、[S1][S2] の両方を入れても大丈夫です。[S1] が常に先に来ることだけ守ってください。

 
xguru 2025-04-22

Hacker Newsで多くのアップボートを集めていたので、自動的にGN+が要約していたようです。私は追加で少し整理しただけです。

応援しています!!

 
toebee 2025-04-22

ありがとうございます :))

 
toebee 2025-04-22

私が作ったモデルです(笑)...

 
kgh1379 2025-04-22

素晴らしいです!!ありがたく使わせていただきます T_T/

 
toebee 2025-04-22

ありがとうございます :)) GitHub のスターをお願いします 笑

 
kgh1379 2025-04-22

完了しました!韓国語のニュースも近いうちに見られるとうれしいです!!ありがとうございます

 
GN⁺ 2025-04-22
Hacker Newsの意見

技術的な驚嘆と称賛

  • わずか2人が3か月で作ったプロジェクトであるにもかかわらず、非常に高いクオリティを示している
  • 大企業に比べて小さなチームが音声モデル分野で競争力のある結果を出している点が印象的
  • 「本物の人間のように聞こえる」「TTSの未来を見ているようだ」「サンプルが驚異的だ」といった反応
  • 複数のユーザーが、The Officeのシーンをもとに作られた音声サンプルを特に印象的だと評価

音声品質と特徴に対する評価

  • 大半は「人間のように自然だ」「感情表現がうまい」「笑い声、咳、叫び声などのディテールが生きている」という肯定的な反応
  • 一部では、誇張された感情広告っぽい印象冒頭のノイズなどの欠点にも言及
  • 特定の声優スタイル(例: NPRトーン)や、過去のYouTubeフラッシュアニメのような雰囲気に似ているという意見もある

デモ使用感と直接テスト

  • M2 MacBookなどさまざまなハードウェアでの実行成功例が共有された
  • HuggingFace Spacesを通じてオンラインですぐ体験できる点が好評
  • DockerやCUDAコンテナでも簡単に実行できるというフィードバックも共有

オーディオブック・小説活用に関する議論

  • さまざまなユーザーが、オーディオブック制作、キャラクターごとの声優の分離、感情豊かなセリフの実装などでの可能性を探っている
  • ただし一部には、「それでも人間の声優のほうが良い」「優れた声優は作品に固有の質感を与える」という意見もある
  • AIが感情やキャラクターをきちんと解釈できるなら、むしろより良いという反論も存在

音声合成関連の機能要望と質問

  • 次のような機能・対応の要望が挙がった:
    • 多言語対応(中国語、フィンランド語など)
    • 2人以上の会話への対応
    • 音声クローニング(自分の声)
    • 単語単位のタイミング情報
    • AMD GPU対応
    • ストリーミング出力対応
  • これに対して開発側は、機能ごとに開発中、または今後の対応予定を共有した

ライセンスとオープンソース関連

  • Apache 2.0で配布中であり、元の文言(研究目的限定)は「shady stuffをするな」という意味だったと開発者が直接説明
  • 一部のユーザーは、混乱を減らすためにより明確にすべきだと指摘

学習データと訓練過程に関する質問

  • 多くのユーザーが「データセットはどこから来たのか」「どうやって訓練したのか」と質問
  • 開発側は、技術レポートで高レベルの概要を提供予定だと回答

名前の重複をめぐる論争

  • GNOMEのダイアグラムツール(Dia)、diabrowser.comなどとの名称衝突が指摘された
  • 「AIプロジェクトが既存のオープンソース名を意図的に借用する」という批判もある
  • これに対し開発側は、「知らなかった。今後は明確に区別する」と答えた

使い勝手と改善フィードバック

  • デモサイトがNotionベースなので遅く、リンク共有もしづらいという意見 → GitHub Pagesのような軽量ページを提案
  • 「join waitlist」という文言の混乱、不要な venv 明記など、README改善の提案
  • サーバーキャッシュ未使用のためモデルを毎回ダウンロードする問題など、設定関連のフィードバック

開発・応用および統合事例

  • E5-F2、Sesame-TTSなど他のTTSモデルとの比較
  • 特定ドメイン(医療用語など)の正確性を強調するユーザーも存在
  • iOS実行のためのcodec情報の要望や、応用可能性の提示
  • 実サービス適用時には、ストリーミングや初期応答速度などの考慮点も共有された

その他

  • HuggingFaceリンクのエラーやアクセス問題に関する案内と修正の共有
  • デモインターフェースのブックマーク機能など、付随する小さな機能の発見
  • ユーザーのハードウェア制約、TTS活用に対する一般的な期待や懸念もあわせて言及された