2 ポイント 投稿者 GN⁺ 2024-08-10 | 3件のコメント | WhatsAppで共有
  • 無料の「ウェブアプリ」で、録音されたインタビューを簡単に文字起こしできる
  • 主な機能
    • 動画プレーヤーと文書エディタを切り替える必要がない。ブラウザですぐに処理可能
    • キーボードから手を離さずに、一時停止、巻き戻し、早送りが可能
    • 対話型タイムスタンプで文字起こし原稿を簡単に移動・確認できる
    • 毎秒ブラウザストレージに自動保存される
    • プライバシー保護 - 音声ファイルと文字起こし原稿がコンピュータの外に出ない
    • Markdown、プレーンテキスト、Google Docs へエクスポート可能
    • 統合プレーヤーによる動画ファイル対応
    • MITライセンスのオープンソース

GN⁺のまとめ

  • oTranscribe は、インタビュー録音の文字起こし作業を簡素化する無料のウェブアプリ
  • ユーザーはキーボードから手を離さずに音声を操作でき、文字起こし原稿は毎秒自動保存される
  • このアプリはプライバシーを重視しており、音声ファイルと文字起こし原稿がコンピュータの外に出ない
  • Markdown、プレーンテキスト、Google Docs へのエクスポート機能を提供し、さまざまな形式で文字起こし原稿を活用できる
  • 類似機能を提供する他のプロジェクトとして、Express Scribe や TranscribeMe がある

3件のコメント

 
xguru 2024-08-11

えっ? ブラウザでどうやって可能なのかと思ったら……AIなしで、ただ聞いて書き起こすためのツールなんですね。
最近はWhisperで韓国語の認識もうまくできるのに、あえてこういうものを使う理由が……

 
znjadong 2024-08-14

話者が多い場合や発音が不明瞭な場合、録音品質が良くない場合には、AIの助けを借りるのが難しいことがあります。そして、「十分によく」動作する以上の品質が求められることも少なくありません。

 
GN⁺ 2024-08-10
Hacker Newsの意見
  • MahmoudAshraf97のWhisper-diarizationを使ってインタビューを文字起こしした

    • 複数話者の発言を話者番号で区別したファイルを生成
    • タイムスタンプ付きのファイルも生成でき、字幕として利用可能
  • OTranscribeは自動音声認識ツールではなく、手動文字起こしを支援するUI

  • リアルタイムで単語単位の文字起こしができ、ローカルで動作し、最新のオープンソースモデルを使えるアプリを探している

    • otter.aiを使っているが、インターネット接続が必要で文字起こしの遅延問題がある
    • Whisperベースのアプリは録音全体を一度に処理しなければならない
    • Appleの音声認識フレームワークは現時点では機能がやや不足している
  • AI統合がない点に驚いた

    • AIの結果も出版品質にするにはレビューとQAが必要
    • 話者識別、珍しい姓の修正などの作業が必要
  • oTranscribeは自動で音声をテキストに変換しない

    • 手動文字起こしの苦痛を和らげるためのツール
  • TurboScribeサービスを推薦

    • 1日あたり最大3ファイル(1ファイル30分まで)を無料で文字起こし
    • 有料プランでは1ファイルあたり最大10時間まで文字起こし可能
    • 話者認識、さまざまなエクスポート形式に対応し、AIツールも含む
  • Gemini-1.5-Pro-Experiment-0801を使ってインタビュー文字起こしを実験

    • 結果はほぼ完璧
    • 特定の単語を引用符で表示した点が印象的
  • Aikoの無料iOSアプリを使用中

    • OpenAIのWhisperモデルを使用
    • SRT、TXT、CSV、JSONなどの形式でエクスポート可能
  • Whisperとpyannoteを使ったmacOSオープンソースアプリを開発中

    • 機能はあるが速度が遅い
    • PyannoteをCoreMLに変換するのに苦労している
    • 貢献歓迎
  • AIを含むツールを開発中

    • YouTubeからダウンロードし、Voskで文字起こし、pyannoteで話者分離
    • 文字起こし内容を検索エンジンに保存し、Webアプリの実装が必要
    • 協力希望