- Whisperingは、ショートカットキーを押した後に 音声 → テキスト変換 を行い、そのままクリップボードに貼り付ける ローカルファーストの音声文字起こしツール
- 既存の多くのツールが クローズドで有料のサービス だったのに対し、Whisperingは 透明なデータ処理 と オープンソースの利用しやすさ を提供
- ユーザーは ローカル(Whisper C++, Speaches など) または クラウド(Groq, OpenAI, ElevenLabs など) の方式を選択でき、好みの AI変換機能 を設定可能
- アプリは 22MBと軽量で高速起動 をサポートし、カスタムショートカット、音声アクティベーションモード、テキスト自動フォーマットなどの 高度な機能 を含む
- データ所有権の確保とコスト削減を同時に実現できるため、クローズドな文字起こしSaaSの代替 として意義のあるプロジェクト
Whispering 概要
- Whispering は無料・オープンソースの音声文字起こしアプリで、ショートカットキーを押して音声を入力すると、テキストに変換された後に自動コピーされる
- 個人データは基本的に ローカルに保存 され、外部には送信されない
- 必要に応じて OpenAI, Groq, ElevenLabs などの外部APIを直接接続可能
- 透明性 と データ所有権の保証 を中核的な価値として掲げている
主な機能と特徴
- 音声アクティビティ検出モード(Voice Activity Detection, VAD) をサポート
- ユーザーが話すと自動で録音を開始し、止まると自動で終了
- AIベースの変換(Transformations) 機能
- 文法修正、翻訳、要約、書式適用など、さまざまなAIワークフローを設定可能
- OpenAI, Anthropic, Google Gemini, Groq など、多様なLLMプロバイダーを選択可能
- カスタムショートカット に対応し、利用環境に合わせて調整可能
- 低コスト構成: 自分のAPIキーを使用してプロバイダーに直接支払い
- 例: Groqモデル使用時は 0.02$/時間 → 月 0.20$ 程度 (従来型SaaS比で100分の1の安さ)
インストールと利用
- macOS, Windows, Linux 向けバイナリを提供
- macOS: Apple Silicon/Intel 版を区別して提供
- Windows: MSI/EXE インストールオプションを提供
- Linux: AppImage, DEB, RPM をサポート
- インストールが面倒な場合は Webアプリ版 も利用可能 (ただし、グローバルショートカットは非対応)
データ処理方式
- すべての 録音および文字起こし結果は IndexedDB に保存され、ローカルで管理される
- 外部の文字起こしサービスを選択した場合、APIキーによる直接呼び出し のみが発生
- 変換サービス も、ユーザーが選択したLLMプロバイダーにのみ送信
- 変換ワークフロー、プロンプト、設定値はローカルに保存される
差別化要素と利点
- 既存の文字起こしアプリは中間サーバーを経由し、月15〜30ドル の料金を課すことが多い
- Whisperingは 仲介者のいない構造 により、プロバイダーへ直接接続してコスト削減が可能
- ローカルオプションを選べば 完全オフライン・無料・無制限利用 が可能
開発とアーキテクチャ
- Svelte 5 + Tauri ベースで構築されており、デスクトップとWebの両方をサポート
- サイズは約22MB、高速起動、最小限のリソース使用
- コードベースは サービス層、クエリ層、UI層 に分かれた 3層アーキテクチャ
- Web版とデスクトップ版の間で 97%のコード共有
- ブラウザー拡張機能(React + shadcn/ui)は現在一時停止中で、デスクトップアプリの安定化を進行中
コントリビューションとコミュニティ
- 誰でもソースコードのレビュー、機能追加、新しい 文字起こし/AIサービスアダプターの追加 に参加可能
- 開発ガイドライン: TypeScript/Svelte パターンを維持し、WellCrafted ライブラリベースのエラー処理を採用
- Discordコミュニティおよび GitHub Issues を通じて ユーザーフィードバックと協業 を進めている
- MITライセンス に基づき、自由にフォーク・修正・再配布可能
FAQ 主な回答
- オフライン利用の可否: Speaches のローカルモードで完全オフライン対応
- 実際のコスト: Groq利用時は月 0.2〜3$, OpenAI利用時は月 1.8〜16.2$, ローカルは無料
- セキュリティ/プライバシー: 録音はローカル保管、外部送信はユーザーが直接選んだプロバイダーAPIへの送信のみ
- 対応プラットフォーム: macOS, Windows, Linux デスクトップ + Webブラウザー
まだコメントはありません。