Whispering - オープンソースの音声文字起こしアプリ

(github.com/epicenter-so)

21 ポイント投稿者 GN⁺ 2025-08-19 | 2件のコメント | WhatsAppで共有

Whisperingは、ショートカットキーを押した後に 音声 → テキスト変換 を行い、そのままクリップボードに貼り付ける ローカルファーストの音声文字起こしツール
既存の多くのツールが クローズドで有料のサービス だったのに対し、Whisperingは 透明なデータ処理 と オープンソースの利用しやすさ を提供
ユーザーは ローカル(Whisper C++, Speaches など) または クラウド(Groq, OpenAI, ElevenLabs など) の方式を選択でき、好みの AI変換機能 を設定可能
アプリは 22MBと軽量で高速起動 をサポートし、カスタムショートカット、音声アクティベーションモード、テキスト自動フォーマットなどの 高度な機能 を含む
データ所有権の確保とコスト削減を同時に実現できるため、クローズドな文字起こしSaaSの代替 として意義のあるプロジェクト

Whispering 概要

Whispering は無料・オープンソースの音声文字起こしアプリで、ショートカットキーを押して音声を入力すると、テキストに変換された後に自動コピーされる
- 個人データは基本的に ローカルに保存 され、外部には送信されない
- 必要に応じて OpenAI, Groq, ElevenLabs などの外部APIを直接接続可能
透明性 と データ所有権の保証 を中核的な価値として掲げている

主な機能と特徴

音声アクティビティ検出モード(Voice Activity Detection, VAD) をサポート
- ユーザーが話すと自動で録音を開始し、止まると自動で終了
AIベースの変換(Transformations) 機能
- 文法修正、翻訳、要約、書式適用など、さまざまなAIワークフローを設定可能
- OpenAI, Anthropic, Google Gemini, Groq など、多様なLLMプロバイダーを選択可能
広告
カスタムショートカット に対応し、利用環境に合わせて調整可能
低コスト構成: 自分のAPIキーを使用してプロバイダーに直接支払い
- 例: Groqモデル使用時は 0.02$/時間 → 月 0.20$ 程度 (従来型SaaS比で100分の1の安さ)

インストールと利用

macOS, Windows, Linux 向けバイナリを提供
- macOS: Apple Silicon/Intel 版を区別して提供
- Windows: MSI/EXE インストールオプションを提供
- Linux: AppImage, DEB, RPM をサポート
インストールが面倒な場合は Webアプリ版 も利用可能 (ただし、グローバルショートカットは非対応)

データ処理方式

すべての 録音および文字起こし結果は IndexedDB に保存され、ローカルで管理される
外部の文字起こしサービスを選択した場合、APIキーによる直接呼び出し のみが発生
- サーバー中継なし、データ収集なし
変換サービス も、ユーザーが選択したLLMプロバイダーにのみ送信
- 変換ワークフロー、プロンプト、設定値はローカルに保存される

差別化要素と利点

既存の文字起こしアプリは中間サーバーを経由し、月15〜30ドル の料金を課すことが多い
Whisperingは 仲介者のいない構造 により、プロバイダーへ直接接続してコスト削減が可能
ローカルオプションを選べば 完全オフライン・無料・無制限利用 が可能

開発とアーキテクチャ

Svelte 5 + Tauri ベースで構築されており、デスクトップとWebの両方をサポート
- サイズは約22MB、高速起動、最小限のリソース使用
広告
コードベースは サービス層、クエリ層、UI層 に分かれた 3層アーキテクチャ
- Web版とデスクトップ版の間で 97%のコード共有
ブラウザー拡張機能(React + shadcn/ui)は現在一時停止中で、デスクトップアプリの安定化を進行中

コントリビューションとコミュニティ

誰でもソースコードのレビュー、機能追加、新しい 文字起こし/AIサービスアダプターの追加 に参加可能
開発ガイドライン: TypeScript/Svelte パターンを維持し、WellCrafted ライブラリベースのエラー処理を採用
Discordコミュニティおよび GitHub Issues を通じて ユーザーフィードバックと協業 を進めている
MITライセンス に基づき、自由にフォーク・修正・再配布可能

FAQ 主な回答

オフライン利用の可否: Speaches のローカルモードで完全オフライン対応
実際のコスト: Groq利用時は月 0.2〜3$, OpenAI利用時は月 1.8〜16.2$, ローカルは無料
セキュリティ/プライバシー: 録音はローカル保管、外部送信はユーザーが直接選んだプロバイダーAPIへの送信のみ
対応プラットフォーム: macOS, Windows, Linux デスクトップ + Webブラウザー

2件のコメント

wedding 2025-08-21

クローズドネットワークで音声認識機能を実装するために、whisperでSTTする軽量なWebサーバーを作って使っているのですが。
オフラインですべて完結するかのように説明していますが、文字起こし機能以外のトランスフォーメーションのようなものはクラウドに依存しなければならないので、差別化ポイントやメリットにどんな意味があるのかと思ってしまいます。

GN⁺ 2025-08-19

Hacker Newsのコメント

Parakeetモデルをローカルで使えるのか気になる。MacWhisperを使っているが、Parakeetはオンデバイス文字起こしの性能でWhisperより圧倒的に速く、精度も高くてとても満足しており、MacWhisperとParakeetの組み合わせでpush-to-transcribeを長いこと使ってきた。本当に魔法のような体験だ
- まだサポートはされていないが、自分もぜひ欲しい機能だ。Parakeetがリーダーボードで素晴らしい結果を出しているのを見たし、今はまずwhisper.cpp統合の安定化を進め、その後でParakeet対応を追加するつもりだ。誰かがPRでコネクタを作ってくれたら、すぐにマージする用意がある
- Parakeetは本当に驚異的だ。A100 GPUでは実時間比3000倍の速度、ノートPCのCPUでも実時間の5倍の速度が出る。しかもwhisper-large-v3より高精度だ。huggingface ASRリーダーボードを見れば分かる。ただ、NeMoフレームワークは少し扱いづらいかもしれない。Macで（MacWhisper経由で）ローカル動作するのは驚きだ
今朝リポジトリを確認している人向けの案内だが、whisper C++対応を追加するリリースを準備中だ。進行中のPRリンクを参照してほしい。これが公開されれば、はるかに強力なローカル文字起こしをサポートできるようになる。あとはいくつか小さな修正を終えるだけだ
オープンソースベースのローカルファーストなアプリがあらゆる種類で存在して、それぞれがうまく連携してほしい。Epicenterのアイデアは、すべてのデータをテキストとSQLiteとしてフォルダに保存し、透明性と信頼性を持たせることだ。その上に相互運用可能なローカルファーストツールを載せる構造になっている。こういう透明性が信頼できる点が本当に良い。TTSはほとんど経験がないが、この領域を掘るならEpicenterのおかげでWhisperingから始めようと思う。リポジトリにスターを付けたし、貢献できそうなアプリのアイデアも考えてみるつもりだ。YC進出おめでとう、そしてありがとう
- 支援してくれて本当にありがとう。こういうフィードバックはとても貴重だ。オープンソースと自己データ保有の価値観を共有する人と話せてうれしい。YC期間中は、もっと多くのOSS開発者を支援する方向で頑張っていくつもりだ。今後も継続してやり取りできればうれしい
- ここで話しているのはTTS（音声合成）ではなくSTT（音声認識）だと思う
- 後でクラウド版も欲しくなったら、AgentDB APIを使ってそのデータだけアップロードし、クエリだけをクラウドで実行すればよい
すばらしい製品を共有してくれてありがとう。先週、商用製品が遅すぎたので、自分でローカル動作する似たようなアプリを開発した。ボタン1つですべての音声を録音・文字起こししてアプリに入力する機能だ。母語で話すと自動で英語に翻訳される2つ目のモードも作った。カンマや引用符のようなフォーマット維持もきちんと実装した。こういう機能がMacOSの標準ディクテーションアプリにまだ実装されていないのは不思議だ
- 応援してくれて本当にありがとう。翻訳にも役立ったとのことでうれしい。MacOSの標準ディクテーション機能がここまで進化していないのは確かに意外だ。その空白をOSSが埋めつつある
iOSにもこの機能があるのか気になる。ParakeetやWhisperを包んだカスタムiOSキーボードアプリが欲しい。そうすればディクテーションキーボードに切り替えてボタンを押すだけで、すべてのアプリ（1st partyも3rd partyも含めて）にすぐ文字起こし結果を入力できるはずだ。MacOSではMacWhisperが本当に素晴らしいが、iOSには同じ機能がまだない。iOS標準のディクテーションも悪くないが、技術用語や略語はWhisper cppのほうがずっと正確に聞き取れる
- superwhisperがその機能を提供している
ローカルで音声を処理するディクテーション機能に関心があった。リモートAPIに音声を送るのは嫌で、すべて漏えいなしにローカルだけで動いてほしい。FUTO Keyboardで使われているモデルなど、いくつか試したが、まだ物足りない印象だ。特にノイズ処理や「うーん…」「えーと…」のようなフィラー、話しながらの言い直しなどにうまく追従できない。こういう点をうまく解決したオープンモデルが出てきてほしい。アプリ側の問題なのか、モデルの限界なのかはまだ判断しづらいが、関連する新しいモデルがあるのか気になる。それまでは不便でもタイピングでノートを取り続けるしかなさそうだ
- Whisper本体は使ってみたか。おすすめしたい。オープンウェイトで利用できるし、上で紹介されているEpicenterの特徴の1つに「トランスクリプション変換」機能がある。テキストをLLMに入力して、よりきれいに整形できる。トークンコストを許容できるなら、フィラー除去だけでなく、意味単位で文も自動補正できるはずだ
この分野では、ローカルファースト方式と独自バックアップツールの組み合わせという考え方がますます魅力的に感じられる。最近はhyprnoteがHacker Newsで人気を集めていたが、本当によくできていて、ローカルファーストでありながら好みのツールとしても使える
- Hyprnoteの大ファンでもある。2つの製品は少しずつ違うが、技術スタックにも重なる部分が多く、ミッションもかなり似ている
whisperingを1年以上使っているが、コンピュータとの関わり方そのものが変わった。ぜひプログラマブルキー付きのマウスやキーボードを買って、whisperingのショートカットを割り当ててほしい。今では通常のタイピングにはもう戻れないほど、キー入力が非効率に感じる
- 応援してくれて本当にありがとう。こうしたフィードバックは大きな励みになる。今後も問題があればいつでも連絡してほしい
この技術が子どもの声でもうまく動くのか気になる。教育向けアプリでは、プライバシーが重要なローカルベースのモデルへの需要が高い。ただ、現状のWhisperは低年齢の声をうまく聞き取れないと理解している
- その通りで、Whisperは子どもの声に弱い傾向がある。Parakeetや他のモデルはまだ試していないが、教育用途でプライバシーが重要なのは良いユースケースだ。Hyprnoteもおすすめしたい。最近はOWhisperなどモデル拡張も進めている。Hyprnoteの紹介、OWhisperの詳細を参照してほしい
ローカルファーストのオープンソースソフトウェアに強くこだわっている。みんなそうあるべきだと思う
- 本当に同感だ