- PDFをポッドキャストに変換するワークフローを構築するためのチュートリアルシリーズ
- テキスト音声変換モデルを使った実験も学べる
- LLM、プロンプト、音声モデルに関する事前知識がなくても、すべて各ノートブックで扱われている
段階別プロセス
- 1段階: PDF前処理
Llama-3.2-1B-Instruct モデルを使用してPDFを前処理し、.txt ファイルとして保存する。
- 2段階: トランスクリプト作成
Llama-3.1-70B-Instruct モデルを使用して、テキストからポッドキャストのトランスクリプトを作成する。
- 3段階: ドラマチックな書き直し
Llama-3.1-8B-Instruct モデルを使用して、トランスクリプトをよりドラマチックにする。
- 4段階: テキスト音声変換ワークフロー
parler-tts/parler-tts-mini-v1 および bark/suno モデルを使用して、会話型ポッドキャストを生成する。
ノートブック実行の詳細ステップ
- 要件
70B、8B、1BのLlamaモデルを使うために、GPUサーバーまたはAPIプロバイダーが必要。
- ノートブック 1
PDFを処理し、Feather lightモデルを使用して .txt ファイルに変換する。
- ノートブック 2
ノートブック1の出力を受け取り、創造的にポッドキャストのトランスクリプトへ変換する。
- ノートブック 3
前のトランスクリプトを受け取り、会話にドラマ的要素と中断を追加する。
- ノートブック 4
最後のノートブックの結果をポッドキャストに変換する。
今後の改善/追加アイデア
- 音声モデルの実験: より自然な音にするため、TTSモデルの改善が必要。
- LLM対LLMの議論: 2つのエージェントがテーマを議論してポッドキャストの概要を作成。
- 405Bモデルを使ったトランスクリプト作成テスト。
- より良いプロンプト作成。
- Webサイト、音声ファイル、YouTubeリンクなどを収集できる機能のサポート。
GN⁺のまとめ
- NotebookLlamaは、PDFをポッドキャストに変換するオープンソースプロジェクトで、さまざまなLLMとTTSモデルを使用して創造的なコンテンツを生成する。
- このプロジェクトは、LLMとTTSモデルの実験を通じて、より自然な音声を生成できる可能性を示している。
- 類似機能を持つプロジェクトとして、GoogleのTTS APIやAmazon Pollyなどが推奨される。
1件のコメント
Hacker Newsの意見
NotebookLMの「エピソード」を聞けば聞くほど、Googleが既存のマルチモーダル・バックボーンをベースに、2人の話者が参加する「ポッドキャスト討論」モデルを訓練したのだという確信が強まる
NotebookLMは技術に詳しくない人々にとっても非常に印象的
TTSエンジンの選択が奇妙だと思う
サンプル出力が非常に不足していると評価している
他の言語や多様なアクセント、特に東南アジアのアクセントで公開されることを期待している
NotebookLMはオープンソースではなく、iPythonノートブック上でのいくつかの実験にすぎない可能性があると考えている
LLMを使ったプロトタイピングが非常に速いことを示している
NotebookLMがポッドキャストだけを生成するのか疑問に思っている
モバイルフォンでローカル実行できたらよいと思う
サンプルはやや粗いと評価している
NotebookLMを使ったことがある人の出力を聞いてみたいと述べている