- AppleのSpeechAnalyzerとSpeechTranscriberは、OpenAIのWhisperと比べて大幅に高速で、同等の品質のリアルタイム音声文字起こしをサポート
- 実際に34分・7GBの動画ファイルをYapコマンドラインツールで変換すると、45秒でSRTファイルに変換され、MacWhisperより2.2倍速い結果
- MacWhisper、VidCapなど他のツールとの品質差はほとんどないが、いずれも固有名詞や複合語の処理では多少の誤りが見られる
- 長時間の開発者向け動画、講義、ポッドキャストなどの反復作業では、累積的な時間短縮効果が非常に大きい
- macOS Tahoeベータ(開発者アカウントが必要)でYapをインストールすればすぐに利用可能で、Appleの全プラットフォーム(iPhone、iPad、Mac、Vision Pro)で今後Whisperの代替になることが期待される
Apple Speech API vs Whisper: 新たな速度革新
- 最近のWWDCで公開されたSpeechAnalyzerおよびSpeechTranscriberは、macOS、iOS、iPadOS、Vision Proの最新ベータに含まれている
- 筆者は従来のWhisperベースのツールの遅さに不満を感じていたが、新しいAPIは実際の利用でゲームチェンジャー級の性能を示した
- シンプルなコマンドラインツール(Yap)でオーディオ/ビデオファイルをSRT、TXTへ高速に変換できる
- 34分、7GBの4K動画 → Yap: 45秒 / MacWhisper(V3 Turbo): 1分41秒 / VidCap: 1分55秒 / MacWhisper(V2): 3分55秒
- CamelCase(例: AppStories)や固有名詞の認識問題はどのツールでも同様に見られる(後処理で簡単に修正可能)
実際の速度比較とワークフロー活用
- 単一の動画だけを見ると1〜2分の差は小さく見えるが、何時間分もの動画処理では累積的な時間短縮効果が大きい
- YouTube動画など大量の一括変換作業では、yt-dlpなどと連携して効率的な自動化が可能
- 制作者、YouTuber、学生など幅広いユーザーに、字幕・講義・要約などの高速なワークフローを提供
- SpeechAnalyzer/SpeechTranscriberの組み合わせがWhisperを急速に置き換えることが期待される
実際の適用とインストール方法
- macOS Tahoeベータ(現時点では開発者アカウントが必要)をインストール
- Yap GitHubリポジトリからコマンドラインツールをダウンロードしてインストール
- Yapを実行してオーディオ/ビデオファイルを入力すると、SRT/TXT変換ファイルがすぐに生成される
- Apple公式のSpeech APIドキュメントおよびWWDC動画(277)で追加の技術情報を確認できる
結論と展望
- Apple Speech APIはWhisperに対して速度で圧倒的優位を示しながら、品質も同等レベルを維持している
- Appleプラットフォームで音声認識/変換ワークフローを主に使うユーザーにとって、標準モデルとして定着する可能性が高い
- 頻繁に繰り返される自動化作業で、累積効率の最大化と業務生産性の向上が期待される
6件のコメント
あとで日本語も一度テストしてみないとですね。
Appleのプラットフォーム自体が閉鎖的なマインドなので、あまり手が伸びない
タメ口のコメントは見たくないのに、ブロック機能がないね
そう言うなら、あなたが書いたコメントもタメ口ですよね;;
Appleを批判するのが気に入らないのは本人の自由かもしれませんが、あれはタメ口ではないでしょう。
あれは「〜だ/〜である」調で、GeekNewsの基本要約自体がそういう文体なのに、記事はどう読んでいるのでしょうか……