- 音声クローン・テキスト読み上げ・文書朗読・オーディオブック制作機能を統合提供
- MLXベースのMetalアクセラレーションを活用し、macOS環境でネイティブ性能を実現(Windows対応予定)
- 3秒サンプルで音声クローンが可能な Qwen3-TTS と Chatterbox エンジンを統合
- 日本語を含む多言語(23言語)の音声クローンおよび感情表現をサポート
- Kokoro TTS、Supertonic-2、CosyVoice3 ONNX など最新の音声合成モデルを含む
- 文書朗読リーダー機能: PDF、DOCX、EPUB、Markdown、TXTファイルを文単位で読み上げ対応
- オーディオブック生成器: 文書全体を WAV/MP3/M4B 形式に変換。チャプター単位のキュー管理、進捗追跡、音声プリセット再利用
- Agentic Voice Cloning Server として動作し、高度な作業キューオーケストレーションによる並列処理をサポート
- UI、API、CLIをすべて提供し、ローカル自動化や外部連携が可能で、MCPサーバーも内蔵
- 共有音声ライブラリがあり、アップロードした音声をすべてのエンジンで再利用可能
- モデルマネージャー内蔵: HuggingFaceモデルのダウンロードおよび状態確認が可能
- Multi-LLM連携(Claude、OpenAI、Ollama など)をサポート
- FastAPIバックエンドと FlutterデスクトップUIで構成された約18,600行規模のコードベース
- Pythonバックエンド約8,500行、Dart UI約10,100行
- macOS専用バイナリを提供、Windows/Linuxはコード互換のみ対応(今後ビルド予定)
- Business Source License 1.1(BSL-1.1)ベースでソース公開、バイナリには別途配布ライセンスを適用
2件のコメント
mlx-audioのGUI版でしょうか? 品質は確かに良いですね。使ってみましたが、本当にすごいですね