MimikaStudio - Mac向け音声クローンとTTSのオープンソース

xguru · 2026-03-19T09:31:02+09:00

音声クローン・テキスト読み上げ・文書朗読・オーディオブック制作機能を統合提供 MLXベースのMetalアクセラレーションを活用し、macOS環境でネイティブ性能を実現（Windows対応予定） 3秒サンプルで音声クローンが可能な Qwen3-TTS と Chatterbox エンジンを統合日本語を含む多言語（23言語）の音声クローンおよび感情表現をサポート Kokoro TTS、Supertonic-2、CosyVoice3 ONNX など最新の音声合成モデルを含む文書朗読リーダー機能: PDF、DOCX、EPUB、Markdown、TXTファイルを文単位で読み上げ対応オーディオブック生成器: 文書全体を WAV/MP3/M4B 形式に変換。チャプター単位のキュー管理、進捗追跡、音声プリセット再利用 Agentic Voice Cloning Server として動作し、高度な作業キューオーケストレーションによる並列処理をサポート UI、API、CLIをすべて提供し、ローカル自動化や外部連携が可能で、MCPサーバーも内蔵共有音声ライブラリがあり、アップロードした音声をすべてのエンジンで再利用可能モデルマネージャー内蔵: HuggingFaceモデルのダウンロードおよび状態確認が可能 Multi-LLM連携（Claude、OpenAI、Ollama など）をサポート FastAPIバックエンドと FlutterデスクトップUIで構成された約18,600行規模のコードベース Pythonバックエンド約8,500行、Dart UI約10,100行 macOS専用バイナリを提供、Windows/Linuxはコード互換のみ対応（今後ビルド予定） Business Source License 1.1（BSL-1.1）ベースでソース公開、バイナリには別途配布ライセンスを適用

音声クローン・テキスト読み上げ・文書朗読・オーディオブック制作機能を統合提供
MLXベースのMetalアクセラレーションを活用し、macOS環境でネイティブ性能を実現（Windows対応予定）
3秒サンプルで音声クローンが可能な Qwen3-TTS と Chatterbox エンジンを統合
- 日本語を含む多言語（23言語）の音声クローンおよび感情表現をサポート
Kokoro TTS、Supertonic-2、CosyVoice3 ONNX など最新の音声合成モデルを含む
文書朗読リーダー機能: PDF、DOCX、EPUB、Markdown、TXTファイルを文単位で読み上げ対応
オーディオブック生成器: 文書全体を WAV/MP3/M4B 形式に変換。チャプター単位のキュー管理、進捗追跡、音声プリセット再利用
Agentic Voice Cloning Server として動作し、高度な作業キューオーケストレーションによる並列処理をサポート
UI、API、CLIをすべて提供し、ローカル自動化や外部連携が可能で、MCPサーバーも内蔵
共有音声ライブラリがあり、アップロードした音声をすべてのエンジンで再利用可能
モデルマネージャー内蔵: HuggingFaceモデルのダウンロードおよび状態確認が可能
Multi-LLM連携（Claude、OpenAI、Ollama など）をサポート
FastAPIバックエンドと FlutterデスクトップUIで構成された約18,600行規模のコードベース
- Pythonバックエンド約8,500行、Dart UI約10,100行
macOS専用バイナリを提供、Windows/Linuxはコード互換のみ対応（今後ビルド予定）
Business Source License 1.1（BSL-1.1）ベースでソース公開、バイナリには別途配布ライセンスを適用

MimikaStudio - Mac向け音声クローンとTTSのオープンソース

関連記事

2件のコメント