Ghost Pepper – macOS向けローカル音声テキスト変換アプリ

(github.com/matthartman)

4 ポイント投稿者 GN⁺ 2026-04-07 | 1件のコメント | WhatsAppで共有

macOSでControlキーを押して話すと、自動でテキストに変換して貼り付けするローカル音声認識アプリ
すべての音声認識とテキスト整形処理がローカルでのみ実行され、クラウド送信なしでプライバシー保護を保証
WhisperKitとLLM.swiftベースで、Hugging Faceモデルを自動ダウンロードしてキャッシュ保存
スマート整形機能で不要な言いよどみを除去し自己修正表現を補正、メニューバーアプリ形式でバックグラウンド動作
MITライセンスのオープンソースとして公開されており、Apple Silicon macOS 14以降で動作

概要

Ghost PepperはmacOS向けの完全ローカル音声テキスト変換アプリで、Controlキーを押して話し、離すと自動でテキストに変換して貼り付ける機能を提供
クラウドAPIは使用せず、すべてのデータとモデルはローカルでのみ処理される
**Apple Silicon（M1以降）**ベースのmacOS 14.0以降で動作
メニューバーアプリとして動作し、ログイン時の自動起動が可能
MITライセンスで公開されたオープンソースプロジェクト

主な機能

Controlキーを押して話す → キーを離すと自動でテキスト変換して貼り付け
ローカル実行アーキテクチャにより、音声認識と後処理モデルの両方がMac内部で動作
スマート整形機能で不要な言葉（uh, um など）を取り除き、自己修正表現を自動補正
メニューバー専用インターフェースで、Dockアイコンなしにバックグラウンド動作
ユーザー設定に対応: 整形プロンプトの修正、マイク選択、機能のオン/オフ切り替えが可能

動作方式

すべてのモデルはオープンソースベースで、初回起動時に自動ダウンロード後、ローカルキャッシュに保存
音声認識はWhisperKit、テキスト整形はLLM.swiftによって実行
モデルファイルはHugging Faceで提供
音声認識モデル
- Whisper tiny.en (~75MB): 最も高速な英語専用モデル
- Whisper small.en (~466MB): デフォルト、高精度な英語専用モデル
- Whisper small (multilingual): 多言語対応
- Parakeet v3 (~1.4GB): 25言語対応、FluidAudioベース
テキスト整形モデル
- Qwen 3.5 0.8B (~535MB): デフォルト、約1〜2秒で処理
- Qwen 3.5 2B (~1.3GB): 高速処理（約4〜5秒）
- Qwen 3.5 4B (~2.8GB): 最高品質（約5〜7秒）

インストールと実行

アプリのインストール
1. GhostPepper.dmg をダウンロード
2. DMGを開いてApplicationsフォルダへドラッグ
3. マイクおよびアクセシビリティ権限を許可
4. Controlキーを押して話すことで使用開始
ソースからビルド
1. リポジトリをクローン
2. GhostPepper.xcodeprojをXcodeで開く
3. Cmd+Rでビルドして実行

必要な権限

権限	目的
Microphone	音声録音
Accessibility	グローバルショートカットと自動貼り付けの実行

追加情報

ログイン時の自動起動はデフォルトで有効になっており、設定で無効化可能
ディスクへのログ保存なし — 変換されたテキストはファイルに記録されず、デバッグログはメモリ内にのみ保持され、アプリ終了時に削除される

技術構成と依存関係

WhisperKit: 音声認識エンジン
LLM.swift: テキスト整形用ローカルLLM
Hugging Face: モデルホスティング
Sparkle: macOSアプリのアップデート管理

名前の意味

すべてのモデルがローカルでのみ実行されるため、個人データが外部に送信されない
**Ghost Pepper（激辛唐辛子）**という名前は、無料で提供される強力な機能を象徴

企業および管理対象デバイス対応

アプリにはアクセシビリティ（Accessibility）権限が必要で、通常は管理者権限が求められる
**MDM環境（Jamf, Kandji, Mosaic など）**では、**PPPC（Privacy Preferences Policy Control）**プロファイルを通じて事前承認が可能
- Bundle ID: com.github.matthartman.ghostpepper
- Team ID: BBVMGXR9AY
- Permission: Accessibility (com.apple.security.accessibility)

1件のコメント

GN⁺ 2026-04-07

Hacker Newsのコメント

このアプリは本当にすごい。でも見るたびに自分の Pixel 6 を思い出す
2021年モデルなのに、オフラインでも音声をテキスト化できて、文脈に応じて自動修正までしてくれる。しかも話し続けると、前の文までさかのぼって直してくれる。
GoogleがWhisperやQwenより 5年も先行して こうした技術を入れていたのは驚き。それなのに、なぜ今はもっと強力なプラットフォームで1GB級のトランスフォーマーモデルが必要なのか気になる
- これは WebSpeech API で使われているのと同じモデル。完全オフラインでも動作する
  Googleは約10年前にこのモデルの学習を支援していて、今でもかなり優秀。
  WebkitやBlink系ブラウザに組み込まれているので、多くのWebサイトが単なるフロントエンドとして活用している。
  ただしモデル自体は 非公開のblob 形式なので、Firefoxではサポートされていない
  MDNドキュメント / Chromeデモ
- Microsoft OneNote にも2007年ごろ似た機能があった。
  当時そのチームにいたが、保守要員がいなかったため、オフラインモデルを捨ててオンライン専用に切り替えた。
  技術的な理由というより、単に 保守人員不足 が原因だった
- 精度はずっと低い。
  Androidでは Futo、macOSでは MacWhisper を使っている。標準のAppleモデルよりずっと良い
- macOSとiOSでも内蔵の 音声入力機能 で可能。Macでは Globeキー + D
- 自分のPixel 7はむしろ認識率が低すぎて、ほとんど使えない。
  その代わり、オープンソースの Whisper や Parakeet のようなローカルSTTモデルはずっと強力。
  背景ノイズや小声のつぶやきにもあまり影響されない。
  自分は Voice AI 分野で働いていて毎日こうしたモデルを使っているが、体感差は本当に大きい
アプリは本当によくできている。フィードバックを挙げると、
まず、自動で クリップボードに貼り付ける 機能はぜひ必要。ショートカットを押さなくて済むようにするか、設定で選べるとよい
次に、速度が他のソリューションより少し遅い。これは使い勝手に大きく影響する
3つ目に、書式制御機能があるとよい。たとえば「new line」と言ったときに実際の改行として認識されると嬉しい
このスレッドは、それぞれ macOS向け音声→テキストアプリ を作った人たちが集まるサポートグループみたいだ
- 自分が作ったすべてのアプリをここにまとめてある。
  最近 Ghost Pepper も追加したし、必要な機能を入れたskill.mdを作って自分でアプリをビルドすることもできる
- /r/macappsのサブレディットでも whisper dictation アプリが多すぎる。
  飽和したカテゴリでは、既存アプリとの 差別化ポイント を明確に説明しなければならない
  関連投稿
- 自分もひとつ作ったが、後になって KeyVox を見つけて作者と話すことになった。
  KeyVox GitHub
- 自分は nixOS で Noctalia にインジケーターを付けて実装した。
  性能は Wispr Flow とほぼ同じで、完全にローカルで動く
- 典型的なApple流で、macOS 27か28 あたりになれば標準機能として入るだろうと期待している
Linuxユーザーとして Hyprwhspr を開発した
最新の Cohere Transcribe モデルをGPUで動かすと性能は非常に高い。
WhisperKitを faster-whisper や turbov3 と比較したことがあるのか気になる。
Appleがまもなく ネイティブSTT を出してくれそうで期待している
- Handy と比べるとどうなのか気になる。
  既存プロジェクトを改善せずに新しく作った理由も知りたい
- 自分は Whisper large-v3 をM2 Maxでセルフホストして動かしている。
  精度は十分なのでクリーンアップモデルは不要だった。
  ただ、30秒を超える長い音声では レイテンシ を感じる。WhisperKitが長尺音声をどう処理するのか気になる
- Omarchy でHyprwhsprを毎日使っている。本当に素晴らしい
- 自分もちょうど似たものを作ろうとしていたので、おかげで作らずに済んだ。
  もし フットペダルPTT（Push-To-Talk）機能を検討したことがあるか？
  AppleにもすでにSTTはあるが、モデル品質はまだ物足りない
Speech-to-text は自分の開発フローの中核。
LLMやコーディングエージェントにプロンプトを音声で伝えるとき、特に便利。
プラットフォーム別の最高のオープンソース音声入力ツールをこのGitHubリポジトリにまとめている
- 開発で音声入力をどう使っているのか気になる。
  自分は毎分120語でタイピングするので、話すよりずっと速い。
  アクセシビリティ以外で、これはタイピングが遅い人向けなのか、それとも ソファに寝転んでコーディング したい用途なのか本気で知りたい
Handy のようなアプリはすでに存在しているのでは？
- いくつか気になる点がある。
  1. LinuxではFTPアカウントとcurlftpfs、SVN/CVSで似た仕組みを簡単に作れる
  2. USBドライブを完全には置き換えられない。オフラインのプレゼン用に今でもUSBを持ち歩いている
  3. 収益モデルが不明確。無料で提供しながら 収益化 できるのか疑問
- Handyは本当によくできたツールだ
- 同じ問題を解決する 複数のソリューション があってよい
- そう、speech-to-text はすでに存在する
- 自分のユースケースにはぴったり合っている。他のアプリのUIを触る必要がない
共有ありがとう。ローカル速度とプライバシー に注力している点が気に入った
自分は似た目標を持つ Hex を使っているが、両アプリの違いをどう考えているのか気になる
最近は ローカルファーストLLM が小型化するほど、アプリ開発の 中核インフラ になっていきそうだ
昔の Electron が見栄えのよいアプリを簡単に作れるようにしたのと同じで、今は少しのRAMを犠牲にするだけでいい
- その通り、結局は全部 ClaudeVM みたいになっていきそう
  関連ブログ
Whisper 関連プロジェクトは多いが、これが昔のOpenAIモデルなのか、それとも更新版なのか気になる
自分は Parakeet v3 を使っていて、小さくて優秀だ。それなのに、なぜ今もWhisperがこんなに多いのか不思議
- Whisperは今でも 安定していて信頼性の高いモデル だ。
  新しいモデルよりハルシネーションが少なく、AMD GPUでも簡単に動かせる。
  Parakeetを自分で移植してみたが、結局Whisperに戻った
- 自分もParakeetに切り替えるか悩んでいる。
  ただ、自分は ポーランド語 と専門用語を多く使うので、Whisper v3のほうが合っている
- Whisperは多言語に対応し、tinyからturboまで複数のバージョンがある。
  だから システム環境に合わせて調整できる のが強みだ
- 自分もmacOSで Parakeet をVoice Inkとして使い、自宅では Kokoro で音声→テキストを回している。
  GrapheneOSのスマホでもParakeetサーバーを連携している
  関連投稿
このプロジェクトは本当に気に入ったし、自分のワークフローに統合してみたい。
ただ、「8000万ドルを調達した大手AIラボと比べながら無料で提供する」という文句は少し引っかかる。
これは反骨精神というより、すでに 既存研究の延長線上 にある仕事だ。
「spicy」と表現するにはやや大げさに感じる

Ghost Pepper – macOS向けローカル音声テキスト変換アプリ

概要

主な機能

動作方式

音声認識モデル

テキスト整形モデル

インストールと実行

アプリのインストール

ソースからビルド

必要な権限

追加情報

技術構成と依存関係

名前の意味

企業および管理対象デバイス対応

関連記事

1件のコメント

Hacker Newsのコメント