Ghost Pepper – macOS向けローカル音声テキスト変換アプリ
(github.com/matthartman)- macOSでControlキーを押して話すと、自動でテキストに変換して貼り付けするローカル音声認識アプリ
- すべての音声認識とテキスト整形処理がローカルでのみ実行され、クラウド送信なしでプライバシー保護を保証
- WhisperKitとLLM.swiftベースで、Hugging Faceモデルを自動ダウンロードしてキャッシュ保存
- スマート整形機能で不要な言いよどみを除去し自己修正表現を補正、メニューバーアプリ形式でバックグラウンド動作
- MITライセンスのオープンソースとして公開されており、Apple Silicon macOS 14以降で動作
概要
- Ghost PepperはmacOS向けの完全ローカル音声テキスト変換アプリで、Controlキーを押して話し、離すと自動でテキストに変換して貼り付ける機能を提供
- クラウドAPIは使用せず、すべてのデータとモデルはローカルでのみ処理される
- **Apple Silicon(M1以降)**ベースのmacOS 14.0以降で動作
- メニューバーアプリとして動作し、ログイン時の自動起動が可能
- MITライセンスで公開されたオープンソースプロジェクト
主な機能
- Controlキーを押して話す → キーを離すと自動でテキスト変換して貼り付け
- ローカル実行アーキテクチャにより、音声認識と後処理モデルの両方がMac内部で動作
- スマート整形機能で不要な言葉(uh, um など)を取り除き、自己修正表現を自動補正
- メニューバー専用インターフェースで、Dockアイコンなしにバックグラウンド動作
- ユーザー設定に対応: 整形プロンプトの修正、マイク選択、機能のオン/オフ切り替えが可能
動作方式
- すべてのモデルはオープンソースベースで、初回起動時に自動ダウンロード後、ローカルキャッシュに保存
- 音声認識はWhisperKit、テキスト整形はLLM.swiftによって実行
- モデルファイルはHugging Faceで提供
-
音声認識モデル
- Whisper tiny.en (~75MB): 最も高速な英語専用モデル
- Whisper small.en (~466MB): デフォルト、高精度な英語専用モデル
- Whisper small (multilingual): 多言語対応
- Parakeet v3 (~1.4GB): 25言語対応、FluidAudioベース
-
テキスト整形モデル
- Qwen 3.5 0.8B (~535MB): デフォルト、約1〜2秒で処理
- Qwen 3.5 2B (~1.3GB): 高速処理(約4〜5秒)
- Qwen 3.5 4B (~2.8GB): 最高品質(約5〜7秒)
インストールと実行
-
アプリのインストール
- GhostPepper.dmg をダウンロード
- DMGを開いてApplicationsフォルダへドラッグ
- マイクおよびアクセシビリティ権限を許可
- Controlキーを押して話すことで使用開始
-
ソースからビルド
- リポジトリをクローン
GhostPepper.xcodeprojをXcodeで開く- Cmd+Rでビルドして実行
必要な権限
| 権限 | 目的 |
|---|---|
| Microphone | 音声録音 |
| Accessibility | グローバルショートカットと自動貼り付けの実行 |
追加情報
- ログイン時の自動起動はデフォルトで有効になっており、設定で無効化可能
- ディスクへのログ保存なし — 変換されたテキストはファイルに記録されず、デバッグログはメモリ内にのみ保持され、アプリ終了時に削除される
技術構成と依存関係
- WhisperKit: 音声認識エンジン
- LLM.swift: テキスト整形用ローカルLLM
- Hugging Face: モデルホスティング
- Sparkle: macOSアプリのアップデート管理
名前の意味
- すべてのモデルがローカルでのみ実行されるため、個人データが外部に送信されない
- **Ghost Pepper(激辛唐辛子)**という名前は、無料で提供される強力な機能を象徴
企業および管理対象デバイス対応
- アプリにはアクセシビリティ(Accessibility)権限が必要で、通常は管理者権限が求められる
- **MDM環境(Jamf, Kandji, Mosaic など)**では、**PPPC(Privacy Preferences Policy Control)**プロファイルを通じて事前承認が可能
- Bundle ID:
com.github.matthartman.ghostpepper - Team ID:
BBVMGXR9AY - Permission: Accessibility (
com.apple.security.accessibility)
- Bundle ID:
1件のコメント
Hacker Newsのコメント
このアプリは本当にすごい。でも見るたびに自分の Pixel 6 を思い出す
2021年モデルなのに、オフラインでも音声をテキスト化できて、文脈に応じて自動修正までしてくれる。しかも話し続けると、前の文までさかのぼって直してくれる。
GoogleがWhisperやQwenより 5年も先行して こうした技術を入れていたのは驚き。それなのに、なぜ今はもっと強力なプラットフォームで1GB級のトランスフォーマーモデルが必要なのか気になる
Googleは約10年前にこのモデルの学習を支援していて、今でもかなり優秀。
WebkitやBlink系ブラウザに組み込まれているので、多くのWebサイトが単なるフロントエンドとして活用している。
ただしモデル自体は 非公開のblob 形式なので、Firefoxではサポートされていない
MDNドキュメント / Chromeデモ
当時そのチームにいたが、保守要員がいなかったため、オフラインモデルを捨ててオンライン専用に切り替えた。
技術的な理由というより、単に 保守人員不足 が原因だった
Androidでは Futo、macOSでは MacWhisper を使っている。標準のAppleモデルよりずっと良い
その代わり、オープンソースの Whisper や Parakeet のようなローカルSTTモデルはずっと強力。
背景ノイズや小声のつぶやきにもあまり影響されない。
自分は Voice AI 分野で働いていて毎日こうしたモデルを使っているが、体感差は本当に大きい
アプリは本当によくできている。フィードバックを挙げると、
まず、自動で クリップボードに貼り付ける 機能はぜひ必要。ショートカットを押さなくて済むようにするか、設定で選べるとよい
次に、速度が他のソリューションより少し遅い。これは使い勝手に大きく影響する
3つ目に、書式制御機能があるとよい。たとえば「new line」と言ったときに実際の改行として認識されると嬉しい
このスレッドは、それぞれ macOS向け音声→テキストアプリ を作った人たちが集まるサポートグループみたいだ
最近 Ghost Pepper も追加したし、必要な機能を入れたskill.mdを作って自分でアプリをビルドすることもできる
飽和したカテゴリでは、既存アプリとの 差別化ポイント を明確に説明しなければならない
関連投稿
KeyVox GitHub
性能は Wispr Flow とほぼ同じで、完全にローカルで動く
Linuxユーザーとして Hyprwhspr を開発した
最新の Cohere Transcribe モデルをGPUで動かすと性能は非常に高い。
WhisperKitを faster-whisper や turbov3 と比較したことがあるのか気になる。
Appleがまもなく ネイティブSTT を出してくれそうで期待している
既存プロジェクトを改善せずに新しく作った理由も知りたい
精度は十分なのでクリーンアップモデルは不要だった。
ただ、30秒を超える長い音声では レイテンシ を感じる。WhisperKitが長尺音声をどう処理するのか気になる
もし フットペダルPTT(Push-To-Talk)機能を検討したことがあるか?
AppleにもすでにSTTはあるが、モデル品質はまだ物足りない
Speech-to-text は自分の開発フローの中核。
LLMやコーディングエージェントにプロンプトを音声で伝えるとき、特に便利。
プラットフォーム別の最高のオープンソース音声入力ツールを このGitHubリポジトリ にまとめている
自分は毎分120語でタイピングするので、話すよりずっと速い。
アクセシビリティ以外で、これはタイピングが遅い人向けなのか、それとも ソファに寝転んでコーディング したい用途なのか本気で知りたい
Handy のようなアプリはすでに存在しているのでは?
共有ありがとう。ローカル速度とプライバシー に注力している点が気に入った
自分は似た目標を持つ Hex を使っているが、両アプリの違いをどう考えているのか気になる
最近は ローカルファーストLLM が小型化するほど、アプリ開発の 中核インフラ になっていきそうだ
昔の Electron が見栄えのよいアプリを簡単に作れるようにしたのと同じで、今は少しのRAMを犠牲にするだけでいい
関連ブログ
Whisper 関連プロジェクトは多いが、これが昔のOpenAIモデルなのか、それとも更新版なのか気になる
自分は Parakeet v3 を使っていて、小さくて優秀だ。それなのに、なぜ今もWhisperがこんなに多いのか不思議
新しいモデルよりハルシネーションが少なく、AMD GPUでも簡単に動かせる。
Parakeetを自分で移植してみたが、結局Whisperに戻った
ただ、自分は ポーランド語 と専門用語を多く使うので、Whisper v3のほうが合っている
だから システム環境に合わせて調整できる のが強みだ
GrapheneOSのスマホでもParakeetサーバーを連携している
関連投稿
このプロジェクトは本当に気に入ったし、自分のワークフローに統合してみたい。
ただ、「8000万ドルを調達した大手AIラボと比べながら無料で提供する」という文句は少し引っかかる。
これは反骨精神というより、すでに 既存研究の延長線上 にある仕事だ。
「spicy」と表現するにはやや大げさに感じる