42 ポイント 投稿者 xguru 2026-03-19 | 2件のコメント | WhatsAppで共有
  • 音声クローン・テキスト読み上げ・文書朗読・オーディオブック制作機能を統合提供
  • MLXベースのMetalアクセラレーションを活用し、macOS環境でネイティブ性能を実現(Windows対応予定)
  • 3秒サンプルで音声クローンが可能な Qwen3-TTSChatterbox エンジンを統合
    • 日本語を含む多言語(23言語)の音声クローンおよび感情表現をサポート
  • Kokoro TTSSupertonic-2CosyVoice3 ONNX など最新の音声合成モデルを含む
  • 文書朗読リーダー機能: PDF、DOCX、EPUB、Markdown、TXTファイルを文単位で読み上げ対応
  • オーディオブック生成器: 文書全体を WAV/MP3/M4B 形式に変換。チャプター単位のキュー管理、進捗追跡、音声プリセット再利用
  • Agentic Voice Cloning Server として動作し、高度な作業キューオーケストレーションによる並列処理をサポート
  • UI、API、CLIをすべて提供し、ローカル自動化や外部連携が可能で、MCPサーバーも内蔵
  • 共有音声ライブラリがあり、アップロードした音声をすべてのエンジンで再利用可能
  • モデルマネージャー内蔵: HuggingFaceモデルのダウンロードおよび状態確認が可能
  • Multi-LLM連携(Claude、OpenAI、Ollama など)をサポート
  • FastAPIバックエンドFlutterデスクトップUIで構成された約18,600行規模のコードベース
    • Pythonバックエンド約8,500行、Dart UI約10,100行
  • macOS専用バイナリを提供、Windows/Linuxはコード互換のみ対応(今後ビルド予定)
  • Business Source License 1.1(BSL-1.1)ベースでソース公開、バイナリには別途配布ライセンスを適用

2件のコメント

 
neocode24 2026-03-19

mlx-audio のGUI版でしょうか? 品質は確かに良いですね。

 
jhk0530 2026-03-19

使ってみましたが、本当にすごいですね