4 ポイント 投稿者 GN⁺ 22 일 전 | 1件のコメント | WhatsAppで共有
  • macOSでControlキーを押して話すと、自動でテキストに変換して貼り付けするローカル音声認識アプリ
  • すべての音声認識とテキスト整形処理がローカルでのみ実行され、クラウド送信なしでプライバシー保護を保証
  • WhisperKitLLM.swiftベースで、Hugging Faceモデルを自動ダウンロードしてキャッシュ保存
  • スマート整形機能で不要な言いよどみを除去し自己修正表現を補正、メニューバーアプリ形式でバックグラウンド動作
  • MITライセンスのオープンソースとして公開されており、Apple Silicon macOS 14以降で動作

概要

  • Ghost PepperはmacOS向けの完全ローカル音声テキスト変換アプリで、Controlキーを押して話し、離すと自動でテキストに変換して貼り付ける機能を提供
  • クラウドAPIは使用せず、すべてのデータとモデルはローカルでのみ処理される
  • **Apple Silicon(M1以降)**ベースのmacOS 14.0以降で動作
  • メニューバーアプリとして動作し、ログイン時の自動起動が可能
  • MITライセンスで公開されたオープンソースプロジェクト

主な機能

  • Controlキーを押して話す → キーを離すと自動でテキスト変換して貼り付け
  • ローカル実行アーキテクチャにより、音声認識と後処理モデルの両方がMac内部で動作
  • スマート整形機能で不要な言葉(uh, um など)を取り除き、自己修正表現を自動補正
  • メニューバー専用インターフェースで、Dockアイコンなしにバックグラウンド動作
  • ユーザー設定に対応: 整形プロンプトの修正、マイク選択、機能のオン/オフ切り替えが可能

動作方式

  • すべてのモデルはオープンソースベースで、初回起動時に自動ダウンロード後、ローカルキャッシュに保存
  • 音声認識はWhisperKit、テキスト整形はLLM.swiftによって実行
  • モデルファイルはHugging Faceで提供
  • 音声認識モデル

    • Whisper tiny.en (~75MB): 最も高速な英語専用モデル
    • Whisper small.en (~466MB): デフォルト、高精度な英語専用モデル
    • Whisper small (multilingual): 多言語対応
    • Parakeet v3 (~1.4GB): 25言語対応、FluidAudioベース
  • テキスト整形モデル

    • Qwen 3.5 0.8B (~535MB): デフォルト、約1〜2秒で処理
    • Qwen 3.5 2B (~1.3GB): 高速処理(約4〜5秒)
    • Qwen 3.5 4B (~2.8GB): 最高品質(約5〜7秒)

インストールと実行

  • アプリのインストール

    1. GhostPepper.dmg をダウンロード
    2. DMGを開いてApplicationsフォルダへドラッグ
    3. マイクおよびアクセシビリティ権限を許可
    4. Controlキーを押して話すことで使用開始
  • ソースからビルド

    1. リポジトリをクローン
    2. GhostPepper.xcodeprojをXcodeで開く
    3. Cmd+Rでビルドして実行

必要な権限

権限 目的
Microphone 音声録音
Accessibility グローバルショートカットと自動貼り付けの実行

追加情報

  • ログイン時の自動起動はデフォルトで有効になっており、設定で無効化可能
  • ディスクへのログ保存なし — 変換されたテキストはファイルに記録されず、デバッグログはメモリ内にのみ保持され、アプリ終了時に削除される

技術構成と依存関係

  • WhisperKit: 音声認識エンジン
  • LLM.swift: テキスト整形用ローカルLLM
  • Hugging Face: モデルホスティング
  • Sparkle: macOSアプリのアップデート管理

名前の意味

  • すべてのモデルがローカルでのみ実行されるため、個人データが外部に送信されない
  • **Ghost Pepper(激辛唐辛子)**という名前は、無料で提供される強力な機能を象徴

企業および管理対象デバイス対応

  • アプリにはアクセシビリティ(Accessibility)権限が必要で、通常は管理者権限が求められる
  • **MDM環境(Jamf, Kandji, Mosaic など)**では、**PPPC(Privacy Preferences Policy Control)**プロファイルを通じて事前承認が可能
    • Bundle ID: com.github.matthartman.ghostpepper
    • Team ID: BBVMGXR9AY
    • Permission: Accessibility (com.apple.security.accessibility)

1件のコメント

 
GN⁺ 22 일 전
Hacker Newsのコメント
  • このアプリは本当にすごい。でも見るたびに自分の Pixel 6 を思い出す
    2021年モデルなのに、オフラインでも音声をテキスト化できて、文脈に応じて自動修正までしてくれる。しかも話し続けると、前の文までさかのぼって直してくれる。
    GoogleがWhisperやQwenより 5年も先行して こうした技術を入れていたのは驚き。それなのに、なぜ今はもっと強力なプラットフォームで1GB級のトランスフォーマーモデルが必要なのか気になる

    • これは WebSpeech API で使われているのと同じモデル。完全オフラインでも動作する
      Googleは約10年前にこのモデルの学習を支援していて、今でもかなり優秀。
      WebkitやBlink系ブラウザに組み込まれているので、多くのWebサイトが単なるフロントエンドとして活用している。
      ただしモデル自体は 非公開のblob 形式なので、Firefoxではサポートされていない
      MDNドキュメント / Chromeデモ
    • Microsoft OneNote にも2007年ごろ似た機能があった。
      当時そのチームにいたが、保守要員がいなかったため、オフラインモデルを捨ててオンライン専用に切り替えた。
      技術的な理由というより、単に 保守人員不足 が原因だった
    • 精度はずっと低い。
      Androidでは Futo、macOSでは MacWhisper を使っている。標準のAppleモデルよりずっと良い
    • macOSとiOSでも内蔵の 音声入力機能 で可能。Macでは Globeキー + D
    • 自分のPixel 7はむしろ認識率が低すぎて、ほとんど使えない。
      その代わり、オープンソースの WhisperParakeet のようなローカルSTTモデルはずっと強力。
      背景ノイズや小声のつぶやきにもあまり影響されない。
      自分は Voice AI 分野で働いていて毎日こうしたモデルを使っているが、体感差は本当に大きい
  • アプリは本当によくできている。フィードバックを挙げると、
    まず、自動で クリップボードに貼り付ける 機能はぜひ必要。ショートカットを押さなくて済むようにするか、設定で選べるとよい
    次に、速度が他のソリューションより少し遅い。これは使い勝手に大きく影響する
    3つ目に、書式制御機能があるとよい。たとえば「new line」と言ったときに実際の改行として認識されると嬉しい

  • このスレッドは、それぞれ macOS向け音声→テキストアプリ を作った人たちが集まるサポートグループみたいだ

    • 自分が作ったすべてのアプリを ここ にまとめてある。
      最近 Ghost Pepper も追加したし、必要な機能を入れたskill.mdを作って自分でアプリをビルドすることもできる
    • /r/macappsのサブレディットでも whisper dictation アプリが多すぎる。
      飽和したカテゴリでは、既存アプリとの 差別化ポイント を明確に説明しなければならない
      関連投稿
    • 自分もひとつ作ったが、後になって KeyVox を見つけて作者と話すことになった。
      KeyVox GitHub
    • 自分は nixOSNoctalia にインジケーターを付けて実装した。
      性能は Wispr Flow とほぼ同じで、完全にローカルで動く
    • 典型的なApple流で、macOS 27か28 あたりになれば標準機能として入るだろうと期待している
  • Linuxユーザーとして Hyprwhspr を開発した
    最新の Cohere Transcribe モデルをGPUで動かすと性能は非常に高い。
    WhisperKitを faster-whisperturbov3 と比較したことがあるのか気になる。
    Appleがまもなく ネイティブSTT を出してくれそうで期待している

    • Handy と比べるとどうなのか気になる。
      既存プロジェクトを改善せずに新しく作った理由も知りたい
    • 自分は Whisper large-v3 をM2 Maxでセルフホストして動かしている。
      精度は十分なのでクリーンアップモデルは不要だった。
      ただ、30秒を超える長い音声では レイテンシ を感じる。WhisperKitが長尺音声をどう処理するのか気になる
    • Omarchy でHyprwhsprを毎日使っている。本当に素晴らしい
    • 自分もちょうど似たものを作ろうとしていたので、おかげで作らずに済んだ。
      もし フットペダルPTT(Push-To-Talk)機能を検討したことがあるか?
      AppleにもすでにSTTはあるが、モデル品質はまだ物足りない
  • Speech-to-text は自分の開発フローの中核。
    LLMやコーディングエージェントにプロンプトを音声で伝えるとき、特に便利。
    プラットフォーム別の最高のオープンソース音声入力ツールを このGitHubリポジトリ にまとめている

    • 開発で音声入力をどう使っているのか気になる。
      自分は毎分120語でタイピングするので、話すよりずっと速い。
      アクセシビリティ以外で、これはタイピングが遅い人向けなのか、それとも ソファに寝転んでコーディング したい用途なのか本気で知りたい
  • Handy のようなアプリはすでに存在しているのでは?

    • いくつか気になる点がある。
      1. LinuxではFTPアカウントとcurlftpfs、SVN/CVSで似た仕組みを簡単に作れる
      2. USBドライブを完全には置き換えられない。オフラインのプレゼン用に今でもUSBを持ち歩いている
      3. 収益モデルが不明確。無料で提供しながら 収益化 できるのか疑問
    • Handyは本当によくできたツールだ
    • 同じ問題を解決する 複数のソリューション があってよい
    • そう、speech-to-text はすでに存在する
    • 自分のユースケースにはぴったり合っている。他のアプリのUIを触る必要がない
  • 共有ありがとう。ローカル速度とプライバシー に注力している点が気に入った
    自分は似た目標を持つ Hex を使っているが、両アプリの違いをどう考えているのか気になる

  • 最近は ローカルファーストLLM が小型化するほど、アプリ開発の 中核インフラ になっていきそうだ
    昔の Electron が見栄えのよいアプリを簡単に作れるようにしたのと同じで、今は少しのRAMを犠牲にするだけでいい

    • その通り、結局は全部 ClaudeVM みたいになっていきそう
      関連ブログ
  • Whisper 関連プロジェクトは多いが、これが昔のOpenAIモデルなのか、それとも更新版なのか気になる
    自分は Parakeet v3 を使っていて、小さくて優秀だ。それなのに、なぜ今もWhisperがこんなに多いのか不思議

    • Whisperは今でも 安定していて信頼性の高いモデル だ。
      新しいモデルよりハルシネーションが少なく、AMD GPUでも簡単に動かせる。
      Parakeetを自分で移植してみたが、結局Whisperに戻った
    • 自分もParakeetに切り替えるか悩んでいる。
      ただ、自分は ポーランド語 と専門用語を多く使うので、Whisper v3のほうが合っている
    • Whisperは多言語に対応し、tinyからturboまで複数のバージョンがある。
      だから システム環境に合わせて調整できる のが強みだ
    • 自分もmacOSで Parakeet をVoice Inkとして使い、自宅では Kokoro で音声→テキストを回している。
      GrapheneOSのスマホでもParakeetサーバーを連携している
      関連投稿
  • このプロジェクトは本当に気に入ったし、自分のワークフローに統合してみたい。
    ただ、「8000万ドルを調達した大手AIラボと比べながら無料で提供する」という文句は少し引っかかる。
    これは反骨精神というより、すでに 既存研究の延長線上 にある仕事だ。
    「spicy」と表現するにはやや大げさに感じる