Local Deep Research - ローカルで自分専用の研究アシスタントを運用する

(github.com/LearningCircuit)

16 ポイント投稿者 GN⁺ 2025-03-12 | 4件のコメント | WhatsAppで共有

強力なAIベースの研究ツールで、複数のLLMとWeb検索を使って深い反復分析を実行
- ArXiv、Wikipedia、Google、PubMed、DuckDuckGo、SerpAPI、ローカルRAG、The Guardian などの検索機能を統合
ローカルで実行してプライバシー保護を強化したり、クラウドベースのLLMを設定して性能を向上させたりできる

高度な研究機能

自動化された深層研究: インテリジェントな追跡質問を生成
出典追跡と検証: 引用と出典を自動で追跡
反復分析: 多段階の反復分析で包括的なカバレッジを提供
Webページ全体のコンテンツ分析: スニペットではなく全文コンテンツに基づいて分析

柔軟なLLMサポート

ローカルモデル対応: OllamaベースのローカルAI処理
クラウドモデル対応: Claude、GPT などのクラウドLLMに対応
Langchainモデル互換: さまざまなLangchainモデルをサポート
モデル選択可能: 性能や応答速度などに応じてモデルを設定可能

豊富な出力オプション

詳細な研究結果: 引用付きの詳細レポートを提供
総合研究レポート: 包括的な研究結果を提供
クイック要約: 重要ポイントを要約可能
出典追跡と検証: 出典の追跡と検証をサポート

プライバシー重視の設計

ローカル実行可能: ローカルモデル使用時はすべてのデータがユーザー端末に保存される
検索設定可能: プライバシー保護を強化
透明なデータ処理: データ処理の方式を明確に公開

強化された検索統合

検索エンジン自動選択: クエリ内容に応じて検索エンジンを自動選択
Wikipedia統合: 信頼できる事実検索
arXiv統合: 科学論文と学術研究を検索
PubMed統合: 医学および生物医学研究資料を検索
DuckDuckGo統合: 一般的なWeb検索（レート制限の可能性あり）
SerpAPI統合: Google検索結果を提供（APIキーが必要）
Google Programmable Search: カスタム検索を設定可能（APIキーが必要）
The Guardian統合: ニュースおよびジャーナリズムコンテンツを検索（APIキーが必要）
ローカルRAG検索: 個人文書を検索可能（ベクトル埋め込みを使用）
Webページ全文検索: Webページ全体の内容を検索可能
出典フィルタリングと検証: 信頼できる出典でフィルタリング可能
検索パラメータ設定可能: 検索範囲、期間などを設定可能

ローカル文書検索（RAG）

ベクトル埋め込みベースの検索: 個人文書から内容を検索可能
カスタム文書コレクション作成: テーマ別に文書をグループ化可能
プライバシー保護: すべての文書はローカルで処理される
インテリジェントなチャンク化と検索: 文書内容をチャンク化して検索
さまざまな文書形式に対応: PDF、テキスト、Markdown などをサポート
統合メタ検索を自動適用: ローカル検索とWeb検索を統合可能

Webインターフェース

ダッシュボードを提供: 直感的なインターフェース
リアルタイム進捗更新: 研究の進行状況をリアルタイムで提供
研究履歴管理: 過去の研究記録にアクセスして管理可能
PDFレポートのエクスポート: 研究レポートをPDFとしてダウンロード可能
研究管理: 進行中の研究を中止または削除可能

対応検索エンジンオプション

Auto: クエリに応じて自動でエンジンを選択
Wikipedia: 一般情報や事実の検索に適している
arXiv: 科学および学術論文の検索に適している
PubMed: 生物医学および医学研究に適している
DuckDuckGo: プライバシー重視の一般Web検索
The Guardian: ニュースおよびジャーナリズム検索（APIキーが必要）
SerpAPI: Google検索結果を提供（APIキーが必要）
Google Programmable Search: カスタム検索（APIキーが必要）

4件のコメント

zxshinxz 2025-03-13

ライフサイエンス分野の従事者として、簡単に使ってみた結果を共有したい。

Research mode は2種類用意されている。

Quick summary

所要時間は約5〜6分程度（4070 ti super、16GB基準、Mistral および Gemma 3:12b）
ハルシネーションがあるため Reference を直接生成するが、文書内でリンクが張られる Ref は出典が明確なようだ。
質問に対する答えを 新技術 に焦点を当てて回答しようとする意図がある。特に AI と関連付けようとする。

Detailed Report

所要時間は約1時間（4070 ti super 16GB、Gemma 3:12b）
1本のレビュー論文を作ってくれるようなもの。ただし Reference が大幅に減ってしまう問題がある。内容が正しいとしても根拠を示せないので、多少の改善が必要だ。（おそらく反復処理を行って文章のクオリティを高めているようだが、この過程で Ref link が失われているように見える。）
ただ、確かに Quick summary よりはクオリティの高い内容を提供する。

Config ファイルではさまざまな設定が可能。検索するデータベースを PubMed のみに限定して、資料のクオリティをさらに高めることができる。一度に検索するテキストや、RAG 使用時にどれくらいのチャンクを作るかも設定できる。

現在 0.01V であることを考えると、Local マシンでここまでのレポートを作り出せるのは非常に驚きだ。特に生命科学の分野では Chatbot が 一般化された記述 を使うことが多いが、このプログラムで作成されたレポートは非常に科学的な記述を用いる。

このプログラムは現在日本語をサポートしていない。質問を日本語でしてもレポートは英語で出力される。
また、PDF エクスポートで PDF ファイルとして回答を受け取る際、日本語が表示されない問題がある。

レポート生成中に Ref が消える問題と、ハルシネーションを起こす問題さえ解決されれば、本当に強力なツールだと思う。

zxshinxz 2025-03-14

使ってみた感じでは、Ollama ではさまざまなモデルの中でも Qwen2.5 がうまく動くようです。Deepseek-r1 は Search するときにクエリをおかしく作ってしまい、根拠になる内容を誤って取ってきますし、Gemma 系は例として挙げたプロンプトを実際のプロンプトとして認識して、その関連トピックの内容を必ず入れ込もうとします。

GN⁺ 2025-03-12

Hacker Newsのコメント

ローカルでローファイな空間に向けた取り組みには拍手を送りたい。ただ、ドキュメントの例を読むと、出力結果はやや混乱している印象を受ける
- 1つ以上の中間ステップが必要だと思う。たとえば、グラフデータベースを使って LLM が情報を保存し、相互のつながりを確認し、自ら問いを立てて最終レポートを生成できる
- 最終レポートは、ユーザーが質問したり直接編集したりできるインタラクティブな HTML ファイルにできるかもしれない
- Onyx という似たオープンなディープリサーチツールがあり、UI/UX はそちらのほうが良さそうだ。作者はこのツールをローカルに移植することを検討してもよいかもしれない
- このプロジェクトがよくないと言いたいわけではなく、多くのオープンなディープリサーチプロジェクトが消えてしまうのではないかと心配している。人々が最も関心のある部分に集中して協力するほうがよいだろう
このプロジェクトはすばらしい
- インターネットをソースとして埋め込みを追加したいなら、exa.ai を試してみることを勧める。Wikipedia、数千のニュースフィード、GitHub、7,000万本を超える論文を含んでいる
- 参考までに、私は共同創業者の一人だ
試してみたがエラーが多く、レポートを生成できなかった。生成に失敗したときに再開する方法がなく、API 呼び出しが失敗すると最初からやり直さなければならない
Web 検索には Kagi と Tavily API も検討するとよい
とても良さそうに見える。open-webui の RAG 機能と比べるとどうなのか気になる
- Web 検索や文書埋め込みの方法はあるが、埋め込みでは細部が失われるため結果が不十分だ。この方法のほうが優れているのか気になる
（ローカル）LLM を使って、ベクトル検索に依存せず資料集から関連資料を直接検索している人がいるのか気になる
良い仕事だ
- 最近、RAG のためにキュレーションされた構造化情報を使う事前処理済みのローカルコレクションは、この動的検索アプローチを補完するのに適しているのではないかと思っている
- LangChain を使っているのを見たが、txtai も確認してみる価値がある
AI 検索体験を提供し、ブックマークの内容を混ぜ合わせてレポートを生成するツールがあるのか気になる。今のブックマークは役に立たない状態だ。これなら有用なものにできるかもしれない
- 今の OpenAI のディープリサーチでよくある失敗パターンは、権威の低いソースから答えを持ってきて、あたかも科学ジャーナルであるかのような参照を付けることだ。こうしたソースには価値のある内容がほとんどなく、ほかのソースが高品質でも低品質なソースがすべてを台無しにしてしまう
- すでにキュレーション済みのコンテンツ（ブックマーク）を重視すれば、信号対雑音比（SNR）を大幅に改善できる
LLM 向けの 3D ゲームのような GUI を作る人が、次の Jobs/Gates/Musk でありノーベル賞受賞者になると思う。LLM の内部を何百万人にも見えるようにして、アライメント問題を解決するだろう。コンピューターが大衆化したのは GUI のある OS が登場してからで、今のチャットボットはコマンドラインに近い。AI 安全のアイデアを共有するために ASK HN を始めた

zhniee 2025-03-13

理解できない。アカデミック水準どころか、小学生のコーディング水準にも達していないものを、なぜ共有するのか……