Appleの新しいSpeech API、Whisperを大きく上回る速度でリアルタイム音声文字起こしを提供

(macstories.net)

16 ポイント投稿者 GN⁺ 2025-06-21 | 6件のコメント | WhatsAppで共有

AppleのSpeechAnalyzerとSpeechTranscriberは、OpenAIのWhisperと比べて大幅に高速で、同等の品質のリアルタイム音声文字起こしをサポート
実際に34分・7GBの動画ファイルをYapコマンドラインツールで変換すると、45秒でSRTファイルに変換され、MacWhisperより2.2倍速い結果
MacWhisper、VidCapなど他のツールとの品質差はほとんどないが、いずれも固有名詞や複合語の処理では多少の誤りが見られる
長時間の開発者向け動画、講義、ポッドキャストなどの反復作業では、累積的な時間短縮効果が非常に大きい
macOS Tahoeベータ（開発者アカウントが必要）でYapをインストールすればすぐに利用可能で、Appleの全プラットフォーム（iPhone、iPad、Mac、Vision Pro）で今後Whisperの代替になることが期待される

Apple Speech API vs Whisper: 新たな速度革新

最近のWWDCで公開されたSpeechAnalyzerおよびSpeechTranscriberは、macOS、iOS、iPadOS、Vision Proの最新ベータに含まれている
筆者は従来のWhisperベースのツールの遅さに不満を感じていたが、新しいAPIは実際の利用でゲームチェンジャー級の性能を示した
シンプルなコマンドラインツール（Yap）でオーディオ/ビデオファイルをSRT、TXTへ高速に変換できる
34分、7GBの4K動画 → Yap: 45秒 / MacWhisper(V3 Turbo): 1分41秒 / VidCap: 1分55秒 / MacWhisper(V2): 3分55秒
CamelCase（例: AppStories）や固有名詞の認識問題はどのツールでも同様に見られる（後処理で簡単に修正可能）

brainer 2025-06-21

あとで日本語も一度テストしてみないとですね。

howudoin 2025-06-21

Appleのプラットフォーム自体が閉鎖的なマインドなので、あまり手が伸びない

gera1d 2025-06-21

タメ口のコメントは見たくないのに、ブロック機能がないね

jk34011 2025-06-23

そう言うなら、あなたが書いたコメントもタメ口ですよね;;

crawler 2025-06-22

Appleを批判するのが気に入らないのは本人の自由かもしれませんが、あれはタメ口ではないでしょう。
あれは「〜だ/〜である」調で、GeekNewsの基本要約自体がそういう文体なのに、記事はどう読んでいるのでしょうか……

2025-06-23

[このコメントは非表示になっています。]