21 ポイント 投稿者 GN⁺ 2025-08-19 | まだコメントはありません。 | WhatsAppで共有
  • Whisperingは、ショートカットキーを押した後に 音声 → テキスト変換 を行い、そのままクリップボードに貼り付ける ローカルファーストの音声文字起こしツール
  • 既存の多くのツールが クローズドで有料のサービス だったのに対し、Whisperingは 透明なデータ処理オープンソースの利用しやすさ を提供
  • ユーザーは ローカル(Whisper C++, Speaches など) または クラウド(Groq, OpenAI, ElevenLabs など) の方式を選択でき、好みの AI変換機能 を設定可能
  • アプリは 22MBと軽量で高速起動 をサポートし、カスタムショートカット、音声アクティベーションモード、テキスト自動フォーマットなどの 高度な機能 を含む
  • データ所有権の確保とコスト削減を同時に実現できるため、クローズドな文字起こしSaaSの代替 として意義のあるプロジェクト

Whispering 概要

  • Whispering は無料・オープンソースの音声文字起こしアプリで、ショートカットキーを押して音声を入力すると、テキストに変換された後に自動コピーされる
    • 個人データは基本的に ローカルに保存 され、外部には送信されない
    • 必要に応じて OpenAI, Groq, ElevenLabs などの外部APIを直接接続可能
  • 透明性データ所有権の保証 を中核的な価値として掲げている

主な機能と特徴

  • 音声アクティビティ検出モード(Voice Activity Detection, VAD) をサポート
    • ユーザーが話すと自動で録音を開始し、止まると自動で終了
  • AIベースの変換(Transformations) 機能
    • 文法修正、翻訳、要約、書式適用など、さまざまなAIワークフローを設定可能
    • OpenAI, Anthropic, Google Gemini, Groq など、多様なLLMプロバイダーを選択可能
  • カスタムショートカット に対応し、利用環境に合わせて調整可能
  • 低コスト構成: 自分のAPIキーを使用してプロバイダーに直接支払い
    • 例: Groqモデル使用時は 0.02$/時間 → 月 0.20$ 程度 (従来型SaaS比で100分の1の安さ)

インストールと利用

  • macOS, Windows, Linux 向けバイナリを提供
    • macOS: Apple Silicon/Intel 版を区別して提供
    • Windows: MSI/EXE インストールオプションを提供
    • Linux: AppImage, DEB, RPM をサポート
  • インストールが面倒な場合は Webアプリ版 も利用可能 (ただし、グローバルショートカットは非対応)

データ処理方式

  • すべての 録音および文字起こし結果は IndexedDB に保存され、ローカルで管理される
  • 外部の文字起こしサービスを選択した場合、APIキーによる直接呼び出し のみが発生
    • サーバー中継なし、データ収集なし
  • 変換サービス も、ユーザーが選択したLLMプロバイダーにのみ送信
    • 変換ワークフロー、プロンプト、設定値はローカルに保存される

差別化要素と利点

  • 既存の文字起こしアプリは中間サーバーを経由し、月15〜30ドル の料金を課すことが多い
  • Whisperingは 仲介者のいない構造 により、プロバイダーへ直接接続してコスト削減が可能
  • ローカルオプションを選べば 完全オフライン・無料・無制限利用 が可能

開発とアーキテクチャ

  • Svelte 5 + Tauri ベースで構築されており、デスクトップとWebの両方をサポート
    • サイズは約22MB、高速起動、最小限のリソース使用
  • コードベースは サービス層、クエリ層、UI層 に分かれた 3層アーキテクチャ
    • Web版とデスクトップ版の間で 97%のコード共有
  • ブラウザー拡張機能(React + shadcn/ui)は現在一時停止中で、デスクトップアプリの安定化を進行中

コントリビューションとコミュニティ

  • 誰でもソースコードのレビュー、機能追加、新しい 文字起こし/AIサービスアダプターの追加 に参加可能
  • 開発ガイドライン: TypeScript/Svelte パターンを維持し、WellCrafted ライブラリベースのエラー処理を採用
  • Discordコミュニティおよび GitHub Issues を通じて ユーザーフィードバックと協業 を進めている
  • MITライセンス に基づき、自由にフォーク・修正・再配布可能

FAQ 主な回答

  • オフライン利用の可否: Speaches のローカルモードで完全オフライン対応
  • 実際のコスト: Groq利用時は月 0.2〜3$, OpenAI利用時は月 1.8〜16.2$, ローカルは無料
  • セキュリティ/プライバシー: 録音はローカル保管、外部送信はユーザーが直接選んだプロバイダーAPIへの送信のみ
  • 対応プラットフォーム: macOS, Windows, Linux デスクトップ + Webブラウザー

まだコメントはありません。

まだコメントはありません。