NotebookLlama - Google NotebookLMのオープンソース版

(github.com/meta-llama)

1 ポイント投稿者 GN⁺ 2024-10-28 | 1件のコメント | WhatsAppで共有

NotebookLlama レシピの既存のGitHubページは実装ドキュメントではなく、新しい場所へ移動したことを知らせる案内ページです
新しい場所は Building a Notebook Llama: A Step-by-Step Guide のドキュメントへリンクされています
既存パスの本文には同じ 移動案内 が繰り返し記載されており、実際の内容は新しいドキュメントで確認する必要があります
既存の ブックマークやスクリプト がこのGitHubパスを参照している場合は、新しいURLへの更新が必要です
現在のページには、インストール方法、コード構成、実行手順のような NotebookLlamaの使い方 は含まれていません

NotebookLlamaレシピの新しい場所

NotebookLlamaレシピは既存のGitHubディレクトリから新しい場所へ移動しました
新しいドキュメントのタイトルは Building a Notebook Llama: A Step-by-Step Guide です

既存パスを使っている場合

既存の ブックマーク や スクリプト がこのGitHubページを指している場合は、新しいドキュメントURLに変更する必要があります
現在のGitHubページ本文には、移動案内と謝辞の文言が繰り返し記載されています

現在のページにない内容

このページには、NotebookLlamaのインストール方法、コード構成、実行手順、機能説明は含まれていません

1件のコメント

GN⁺ 2024-10-28

Hacker News の意見

NotebookLM の「エピソード」を聴くほど、Google は既存のマルチモーダル基盤モデルの上で、ポッドキャストを直接生成する2人対話モデルを学習させたのではないかという確信が強くなる。
2人の話者が互いに割り込み、発話が重なる様子が不気味なほど人間らしい。
実際のポッドキャストと書き起こしを大規模に用意し、書き起こしから合成の「入力資料」を作って学習サンプルとして入れた可能性もありそうだ。
たとえば The Daily の1エピソードを取り、ある言語モデルにそのポッドキャスト内容を要約する架空の記事を書かせ、その記事を2人話者モデルに入れて、出力音声を書き起こし、入力記事とどれだけよく合っているかを見る、といった形かもしれない。
重要な細部を見落としているのかもしれないが、このポッドキャストの自然さが単なるテキスト書き起こしから出てくるとは思えない。
- swyx の流れに乗るなら、この TTS は Google がついに地下室にしまい込んでいた Soundstorm を出してきた可能性が高い。
  https://google-research.github.io/seanet/soundstorm/examples...
- 良いニュースと悪いニュースがあるが、実際にはそうはしていなかった。
  音声モデルを率いたエンジニアにインタビューした最初のポッドキャストがあった: https://www.latent.space/p/notebooklm
  要約すると、台本と音声は別々に生成されることは確認されたが、TTS モデルはオープンソースや商用で利用できるものよりはるかに先に進んだ状態で学習されている。
- NotebookLM には似たような印象を受けたが、奇妙な点も1つ見た。
  ときどき司会者 A が話している最中に、突然司会者 B がその文を終わらせてしまう。
  普通こういう場合、A は B に何かを説明していたり質問に答えていたりする最中なので文脈上おかしいのだが、どう解釈すべきかは分からないものの、興味深い現象だ。
これは実際のところ、かなり明確にオープンソースではない: https://github.com/meta-llama/llama-recipes/blob/d83d0ae7f5c...
LICENSE ファイルもないので、今のところこのコードはせいぜい参考用にしか使えなさそうだ。
- そのまま使うにはあまり有用には見えないが、探究しているアプローチ自体は平文で明確に、よく文書化されている。
  そのまま使えなくても、公開知への貢献としては十分ありがたい。
- README に書かれている内容と違うので、ミスかもしれない: https://github.com/meta-llama/llama-models/blob/main/models/...
  ここでは Meta Llama 3.2 のライセンスを指している。
- ありがとう、でもそれでも普通に使うつもりだ。
これを見ると良いと思う。テクノロジー好きは NotebookLM を無視すると危険だ。
私の知る賢いが特に技術系ではない人たちの大半は、NotebookLM を圧倒的にAI のキラーアプリのように受け止めていた。
70代の両親も8歳の子どもも、これを見て驚き、ずっといじっている。
下で誰かが指摘しているように、ここで言っているのは正確には「ポッドキャスト」機能のことだ。
- ポッドキャストを聴かない立場からすると、NotebookLM でポッドキャストを作らないとどんな危険があるのか分からない。
- 多くの人にとって格好よく見える理由は理解できるが、私にとっては時間節約の逆だ。
  いわば時間を食うツールに近い。
  ある人たち、開発者でさえ、文章を読めなかったり長いテキストに気後れしたりするために存在意義が生まれる動画と同じ感じだ。
  ごく短いテキストページにも動画を付けてようやく一部緩和される競争上の不利がある。
- よく分からない。「賢いが技術系ではない」人たちは読めないという意味なのか？
  他のポッドキャストを無視するのと同じようにこれを無視したら、何を取り逃すのか分からない。
  ポッドキャストで何かを学んだという人をほとんど見たことがなく、たいていは使いどころのない別分野の断片的知識くらいだった。
- NotebookLM 全般のことを言っているのか、それとも具体的にポッドキャストの芸当のことを言っているのか気になる。
- 何かの記事やブログ投稿についての NotebookLM ポッドキャストを聴くたびに、同じ文章をそのまま AI テキスト読み上げで読んでくれるほうがずっと良かったのではと思った。
この数か月、NotebookLM に似たもの、パーソナライズされたニュースポッドキャストを作ろうとしていた（https://www.tailoredpod.ai）。
最大の問題は、既存の良質な TTS API が高すぎて、Google モデルへの内部アクセス権を持たない普通の会社には NotebookLM のような製品を作るのが難しいことだ。
OpenAI はまだ価格に対する品質がましな TTS API を提供しているが、それでも数時間分の音声を無料で生成するには高すぎる。
オープンソース TTS モデルもゆっくり追いついてきているが、まだ強力なハードウェアが必要だ。例: https://github.com/SWivid/F5-TTS
- ユーザーはいますか？ TTS がボトルネックなら手伝えるかもしれません。メールはプロフィールにあります。
- 「強力なハードウェア」とは、どの程度を指しているのか気になる。
TTS エンジンの選択がかなり妙だ。
オープンな TTS システム基準では、どれも最先端に近いとは言えない。
XTTSv2 や新しい F5-TTS のほうがはるかに良い選択だったはずだ。
- そうしたエンジンを使うようにコードはいつでも更新できる。
  Meta が GitHub に何かを公開するのは、「最高」のものを出そうとしているのではなく、概念実証を提供しようとしているのに近い。
  そうした TTS システムのライセンスも重要で、単に公開されているだけでは不十分だ。
  ユーザー向け製品だったなら、間違いなくもっと良い TTS を使っていただろう。
- ページの改善が必要な項目にはこう書かれている:
  「音声モデルの実験: TTS モデルが自然に聞こえる度合いには限界があります。より良いパイプラインと、より詳しい人の助けがあれば改善できるでしょう。PR 歓迎です！ :)」
サンプル出力がかなり良くない。
素晴らしいデモではあるが、NotebookLMチームが、すでに利用可能なものとほぼ同じ基盤モデルで、どれほど大きなヒット製品を作り上げたのかを、むしろ強調しているだけに見える
これはオープンソース版NotebookLMというより、iPythonノートブック内のいくつかの実験に近いものだと思う。
NotebookLMがLLMレベルでやっていることは特に新しいわけではなく、面白いのは他の製品と違ってプロダクトとしてパッケージ化した方法だと思う。
「ポッドキャスト」部分も実際には大きなコーパスに対する紹介や概要に近く、はるかに有用なのは、そのコーパスについてボットと会話しながら引用元を受け取れる機能だ。
ただし、この例はLLMによるプロトタイピングが非常に速いことを示している。
APIをまだ触ったことがない人には、一度試してみることを勧める。
- 同意しない。
  NotebookLMの新しさは、2人の司会者が互いに割り込み、発話が重なるやり方にある。
  他のオープンソースソリューションはそれができず、ただ交互に話すだけだ。
LLaMAモデルをサポートする、別のJupyterベースのノートブックソリューションもある: https://raku.land/zef:antononcube/Jupyter::Chatbook
デモ動画はこちら: https://youtu.be/zVX-SqRfFPA
これはポッドキャストだけを作ってくれるもの、ということで合っている？
NotebookLMの他の機能のほうにもっと関心がある。
ポッドキャストは面白いが、ギミックに近い。
- 逆に、ポッドキャスト機能を何度も使い、多くの人に共有した。
  本来なら消化しきれなかった複雑な情報を理解するのに良いシステムでありメディアだった。
これをスマートフォン上でローカルに動かせたら、かなりいいと思う。
業務文書、たとえば製品要求仕様書を受け取ったら、運転中に聴けるようポッドキャストに変換してくれる場面を想像している。
生産性が大きく上がり、コンプライアンスの問題も心配しなくて済みそうだ。
- ChatGPTやClaudeが、運転中に使えるAndroid Autoアプリを作ってくれるといいのだが

NotebookLlama - Google NotebookLMのオープンソース版

NotebookLlamaレシピの新しい場所

既存パスを使っている場合

現在のページにない内容

関連記事

1件のコメント

Hacker News の意見