16 ポイント 投稿者 GN⁺ 2025-06-21 | 6件のコメント | WhatsAppで共有
  • AppleのSpeechAnalyzerとSpeechTranscriberは、OpenAIのWhisperと比べて大幅に高速で、同等の品質のリアルタイム音声文字起こしをサポート
  • 実際に34分・7GBの動画ファイルをYapコマンドラインツールで変換すると、45秒でSRTファイルに変換され、MacWhisperより2.2倍速い結果
  • MacWhisper、VidCapなど他のツールとの品質差はほとんどないが、いずれも固有名詞や複合語の処理では多少の誤りが見られる
  • 長時間の開発者向け動画、講義、ポッドキャストなどの反復作業では、累積的な時間短縮効果が非常に大きい
  • macOS Tahoeベータ(開発者アカウントが必要)でYapをインストールすればすぐに利用可能で、Appleの全プラットフォーム(iPhone、iPad、Mac、Vision Pro)で今後Whisperの代替になることが期待される

Apple Speech API vs Whisper: 新たな速度革新

  • 最近のWWDCで公開されたSpeechAnalyzerおよびSpeechTranscriberは、macOS、iOS、iPadOS、Vision Proの最新ベータに含まれている
  • 筆者は従来のWhisperベースのツールの遅さに不満を感じていたが、新しいAPIは実際の利用でゲームチェンジャー級の性能を示した
  • シンプルなコマンドラインツール(Yap)でオーディオ/ビデオファイルをSRT、TXTへ高速に変換できる
  • 34分、7GBの4K動画 → Yap: 45秒 / MacWhisper(V3 Turbo): 1分41秒 / VidCap: 1分55秒 / MacWhisper(V2): 3分55秒
  • CamelCase(例: AppStories)や固有名詞の認識問題はどのツールでも同様に見られる(後処理で簡単に修正可能)

実際の速度比較とワークフロー活用

  • 単一の動画だけを見ると1〜2分の差は小さく見えるが、何時間分もの動画処理では累積的な時間短縮効果が大きい
  • YouTube動画など大量の一括変換作業では、yt-dlpなどと連携して効率的な自動化が可能
  • 制作者、YouTuber、学生など幅広いユーザーに、字幕・講義・要約などの高速なワークフローを提供
  • SpeechAnalyzer/SpeechTranscriberの組み合わせがWhisperを急速に置き換えることが期待される

実際の適用とインストール方法

  • macOS Tahoeベータ(現時点では開発者アカウントが必要)をインストール
  • Yap GitHubリポジトリからコマンドラインツールをダウンロードしてインストール
  • Yapを実行してオーディオ/ビデオファイルを入力すると、SRT/TXT変換ファイルがすぐに生成される
  • Apple公式のSpeech APIドキュメントおよびWWDC動画(277)で追加の技術情報を確認できる

結論と展望

  • Apple Speech APIはWhisperに対して速度で圧倒的優位を示しながら、品質も同等レベルを維持している
  • Appleプラットフォームで音声認識/変換ワークフローを主に使うユーザーにとって、標準モデルとして定着する可能性が高い
  • 頻繁に繰り返される自動化作業で、累積効率の最大化と業務生産性の向上が期待される

6件のコメント

 
brainer 2025-06-21

あとで日本語も一度テストしてみないとですね。

 
howudoin 2025-06-21

Appleのプラットフォーム自体が閉鎖的なマインドなので、あまり手が伸びない

 
gera1d 2025-06-21

タメ口のコメントは見たくないのに、ブロック機能がないね

 
jk34011 2025-06-23

そう言うなら、あなたが書いたコメントもタメ口ですよね;;

 
crawler 2025-06-22

Appleを批判するのが気に入らないのは本人の自由かもしれませんが、あれはタメ口ではないでしょう。
あれは「〜だ/〜である」調で、GeekNewsの基本要約自体がそういう文体なのに、記事はどう読んでいるのでしょうか……

 
[このコメントは非表示になっています。]