oTranscribe: 無料のオープンソース音声インタビュー文字起こしツール

(otranscribe.com)

2 ポイント投稿者 GN⁺ 2024-08-10 | 3件のコメント | WhatsAppで共有

oTranscribeは、録音インタビューを文字起こしする際にメディアプレーヤーと文書エディタを行き来しなければならない不便さを減らす無料のWebアプリ
1つの画面で再生と入力を行い、キーボードだけで一時停止・巻き戻し・早送りを操作できる
文字起こし文にインタラクティブなタイムスタンプを入れて特定の時点へすぐ移動でき、作業内容はブラウザのストレージに毎秒自動保存される
音声ファイルと文字起こし文はコンピューターの外に出ない非公開方式で、Markdown・プレーンテキスト・Google Docsにエクスポートできる
mp3/ogg/webm/wavの音声とmp4/ogg/webmの動画をサポートするが、デスクトップコンピューターで使うワークフローを前提としている

1つの画面で完結する文字起こしフロー

oTranscribeは録音済みインタビューの文字起こし向け無料Webアプリ
デスクトップコンピューターでのみ使用できる
QuickTimeとWordを行き来しなくて済むよう、文字起こし入力とメディア再生を同じ画面で行う
キーボードショートカットで再生と書式を操作できる
- ESCで再生/一時停止
- キーボードで一時停止、巻き戻し、早送り、速度調整
- Ctrl+Jで現在のタイムスタンプを挿入
- Ctrl+Iで斜体、Ctrl+Bで太字を適用
文字起こし文内のインタラクティブなタイムスタンプを押すと、その時点へ移動できる

ファイル処理、保存、エクスポート

音声ファイルと文字起こし文はコンピューターの外に出ない非公開方式で処理される
作業内容はブラウザのストレージに毎秒自動保存される
文字起こし履歴は5分ごとにコピーとして保存され、最大100件のバックアップが維持される
Ctrl+Sでいつでも手動保存できる
対応形式
- 音声: mp3, ogg, webm, wav
- 動画: mp4, ogg, webm
- 動画ファイルは統合プレーヤーで再生できる
- YouTube動画URL入力機能がある
エクスポート
- Markdown .md
- プレーンテキスト .txt
- oTranscribe形式
- Google Docs
- oTranscribeはMITライセンスのオープンソースプロジェクト
- ヘルプはHelpで確認できる

3件のコメント

xguru 2024-08-11

えっ？ブラウザでどうやって可能なのかと思ったら……AIなしで、ただ聞いて書き起こすためのツールなんですね。
最近はWhisperで韓国語の認識もうまくできるのに、あえてこういうものを使う理由が……

znjadong 2024-08-14

話者が多い場合や発音が不明瞭な場合、録音品質が良くない場合には、AIの助けを借りるのが難しいことがあります。そして、「十分によく」動作する以上の品質が求められることも少なくありません。

GN⁺ 2024-08-10

Hacker News の意見

今週、複数の話者が登場するインタビューを話者分離付きで文字起こしする必要があったので、https://github.com/MahmoudAshraf97/whisper-diarizationを使ってみたところ、とてもよく動いた
途切れていない発話ごとに話者番号を付けたファイルと、字幕に使えそうなタイムスタンプ付きファイルの両方を作ってくれる
- Spectropic [1] というホスティング型のWhisper 話者分離 APIをプラットフォームのように使って、良い結果が得られた
  M1でwhisper-diarizationを設定して使うより安く、ずっと簡単で速かった。Audiogest [2] はSpectropic上に作られたWebサービスだが、まだ使ったことはない
  関係者ではなく、満足している顧客にすぎない。バグ報告のあと、これらのツールを作った1人開発者と思われる方と、よいメールのやり取りをしたことがある
  [1] https://spectropic.ai/
  [2] https://audiogest.app/
- 古くてあまり知られていない外国語映画や、海外のTelegram/Twitterチャンネルで見つけた短い動画に、Whisperで字幕を付けることがよくある
  翻訳用のGPTと組み合わせると、かなりうまくいく
  十分な(V)RAMがあればローカルでも可能だが、たいてい余裕がないのでOpenAI APIのほうを好んで使っている。いくつかのLlama系はGPT-4の品質には及ばない
  Whisperだけが必要で翻訳が不要なら、ローカル実行も十分現実的で、高品質なWhisperも4GBの(V)RAMに収まる
- OpenAI Whisperの問題は、CPUのみのマシンでは遅すぎること
  Whisper.CPPはWhisperに比べて非常に速いので、その上により良い話者分離機能が作られてほしい
- whisper-diaには時々解決できない妙な問題があったので、個人的にはwhisperXのほうが合っていた: https://github.com/m-bain/whisperX
- 伝統的には非常に複雑で難しかった機械学習の問題が、AIのおかげでだんだん汎用的な商品（コモディティ）のようになっていくのは興味深い
  文字起こし、機械翻訳、OCR、画像認識などがそうだ
少し分かりにくいかもしれないが、OTranscribeは自動の音声テキスト化ツールではなく、手動文字起こしを助けるUIだ
つまり、ここにAIはない
- その通り。手動文字起こしの補助のために設計されたツールだ
録音中に単語単位のリアルタイム文字起こしができ、完全にローカルで動作し、比較的新しいオープンソースのローカルモデルを使う、オープンソース/有料アプリ/シェアウェア/フリーウェアはあるだろうか？
今はリアルタイム会議文字起こしにotter.aiを使っている。マルチタスク中に質問されたとき、直近数秒の文字起こしをざっと見てすぐ追いつけるので便利だが、完璧ではなく、ときどきリアルタイムサービスの文字起こし遅延がかなり大きいし、インターネット接続も必要になる
一方でWhisperベースのアプリの多くや、最後に確認したときのwhisper.cppのデモコードは、録音全体を一度に投入する必要があった。Appleの音声入力フレームワークなどに依存するものもあるが、現状の機能はやや古い
実際に使っているものがあるのか気になる
- 聴力がよくないという別の必要性から、完全にローカルで単語単位のリアルタイム文字起こしを行うローカルファーストのソリューションを自作した
  会議やインタビューなどを文字起こしするときに毎日使っているツールだ。すべてのデータが自分のマシンに残るので、職場の会議を文字起こしするときもプライバシーを心配しなくていい
  Otter.aiと同じくらい速いが、ユーザー体験と速度の面では明らかに改善の余地がある。ただし、Apple silicon搭載のMacBookでのみ動作する
  興味があればメールで話せる（HNプロフィール参照）
- Android/GrapheneOSでTranscribro[0]を使っている
  自由なオープンソースソフトウェアで、完全にローカルだけで動作する。単語単位のリアルタイムではないが、処理を始めるために音声全体のアップロードを待つ必要はない。Pixel 5aで使っているので、すごいハードウェアでもない
  タイピングしたくないときにTelegram経由でLinuxマシンにメッセージを送る用途にも使うほど十分よく動く。洗練されていないハックだが、用は足りる
  Linuxネイティブの代替を探したりWaydroidで動かしてみようと数時間費やしたが、これほどよく動くものは見つからなかったので、「滑らかさ」が「十分使える」の敵にならないようにすることにした
  [0] https://github.com/soupslurpr/Transcribro
- Google Pixelスマートフォンにはこの機能があり、非常によく動作する
- oTranscribe+ [0] のコーディングを手伝ったが、求めているものに近いことをする
  ElectronJSと当時のバージョンのoTranscribeを使ったデスクトップアプリで、Web版とPWA [1] もある
  当時の言語モデルはBSC（Barcelona Supercomputing Center）のモデルを使い、文字起こしはVosk [2] ベースでWASM上で実行される
  [0] https://github.com/projecte-aina/oTranscribe-plus
  [1] https://otranscribe.bsc.es/
  [2] https://github.com/alphacep/vosk-api
- 可能だ。WhisperKitのTestFlightアプリはApple Silicon上で3つすべてをサポートしている: https://www.takeargmax.com/blog/whisperkit
  話者分離もあるといいのだが、upstreamのWhisperに追加されるのを待っているところ: https://github.com/argmaxinc/WhisperKit/issues/31
AI統合がないのは少し意外
出版品質の結果を求めるなら、AIの結果でも依然として校正と品質確認が必要。誰がいつ話したのかを示したり、少なくともWhisperにはできない話者識別をしたり、珍しい姓などを修正したりする必要がある
だからAIを使う人にも、補正／仕上げ／校正用の優れたツールが必要で、これは非支援型の文字起こしツールと似たものになりそう
- このツールは、かなり昔に元WSJ Graphics記者で、現在はDatawrapperにいるElliot Bentleyが作ったもの
  今はMuckrockが運営していて、しばらく変更はなかった
  だからこうした統合がない。当時はその技術自体が存在しなかった
FAQによると、「oTranscribeは音声を自動でテキストに変換しますか？」への答えは「いいえ」
oTranscribeは音声の文字起こしという手作業をずっと楽にしてくれるが、文字起こし自体は自分で行う必要がある
現在はAikoの無料iOSアプリを使っていて、OpenAIのWhisperモデルでオフライン文字起こしをしてくれる
これまではかなりうまく動作しており、SRT、TXT、CSV、JSON、タイムスタンプ付きテキストといった形式でエクスポートできる
https://sindresorhus.com/aiko
音声／動画ファイルの文字起こしが必要なら、私のサービスTurboScribe https://turboscribe.ai/もいつでも試せる
1日3ファイルまで、1ファイルあたり30分を上限に100%無料で、有料プランは無制限、1ファイル最大10時間まで文字起こしする
話者認識、一般的なエクスポート形式（TXT、DOCX、PDF、SRT、CSV）、文字起こし作業用のAIツールにも対応している
- TurboScribeの有料プランで良い結果が得られていて、サービスとして提供されている点が気に入っている
  普段は複数話者が登場する2〜3時間の動画録画に使っており、エクスポート前に整えられる編集ツールが便利
- 良さそう。APIがあるのか、または公開する予定があるのか気になる
現在もっとも優れたマルチモーダルLLMかもしれないGemini-1.5-Pro-Experiment-0801でどの程度文字起こしできるのか気になり、今日公開されたEzra KleinとNancy Pelosiのインタビュー5分を文字起こしさせてみた
結果はこちら: https://www.gally.net/temp/20240809geminitranscription/index...
些細な句読点や大文字小文字の問題を除けば、Geminiの文字起こしはほぼ完璧に見えた。聞き間違えたらしい単語は1つか2つだけで、自分で文字起こししていたらそれ以上に間違えていたと思う
特に「And then he comes up with "weird," which becomes viral and the rest, and here he is.」という箇所が目を引いた
Geminiはどうやって「weird」に引用符を付け、話者がWalzの使った単語そのものを指していることを正確に示せたのだろうか？ Politicoによると、Walzがその文脈でメディア上で初めてその単語を使ったのは7月23日
https://www.politico.com/news/2024/07/26/trump-vance-weird-0...
- 引用符までうまく処理された印象的な結果には、おそらく2つの要因があったのかもしれない: 聴覚的手がかりと、引用符がないと文が文法的に不自然で意味が合わないという点
  単なる推測だが、LLMや他の音声認識システムは個々の単語や句読点を認識するために文脈を活用する必要がある可能性が高く、これはそれがうまくはまった例に見える
  人間の聞き取りも似ている。文脈があれば、かなりもごもごしていたり早口だったりしても単語を聞き取れる
  結局、私たちは単語ではなくフレーズ単位で聞いているということ
- モデルが引用符周辺の言語的手がかりを捉えられる可能性は高い
  音声や動画ファイルがあるなら、私たちのAI動画エディタに入れて、文字起こしにどう句読点を付けるか見てみたい
ブラウザ上でWhisperとWASMを使って動画／音声ファイルを文字起こしし、.txt、.srt、.vttファイルを受け取れる文字起こしツールもある
将来的にはWhisper Turbo対応も可能かもしれない
https://video2srt.ccextractor.org/
ちなみに、このプロジェクトに取り組んでいる
これをよく使っている。良くてシンプルで、必要なツール、つまり再生速度の調整と簡単な一時停止／再生だけがあり、それ以上はない
「えー」「あー」のような音で40ページを作り出し、あとで再度ふるいにかけて編集しなければならない自動文字起こしツールより、ずっと好み
- 文字起こしをLLMに入れて、えー、あーのような余計な言葉を削除させればいいのでは？

oTranscribe: 無料のオープンソース音声インタビュー文字起こしツール

1つの画面で完結する文字起こしフロー

ファイル処理、保存、エクスポート

対応形式

エクスポート

関連記事

3件のコメント

Hacker News の意見