Flamehaven FileSearch — セルフホスト可能なオープンソースRAGドキュメント検索エンジン
(github.com/flamehaven01)🔥Flamehaven FileSearch
- Flamehaven FileSearchは、ドキュメントベースのRAG(Retrieval-Augmented Generation)システムを誰でも5分で構築できるようにする、セルフホスト可能なオープンソースのセマンティック検索エンジンです。
- Python、FastAPI、SQLiteベースで動作し、Google Gemini Embeddingを活用してPDF/DOCX/TXT/MDなど多様な文書に対する自然言語での質問応答を実行します。
なぜ作ったのか?
- 多くのオープンソースRAG実装はColabやJupyter環境ではうまく動きますが、実際のサーバーに載せて運用するには構造が複雑だったり、安定性が不足していたりします。
- Flamehaven FileSearchは**「実際に動く軽量RAGスタック」**を目標に、研究者・スタートアップ・個人開発者が誰でも自分のデータでセマンティック検索をすぐに試せるよう設計されました。
なぜ注目すべきか?
- 完全な自律性: 外部サーバーやクラウドに依存せず、データはすべてローカルに保存されます。
- 開発者中心の構成: Python SDK + REST API、FastAPIベースのSwaggerドキュメントを自動提供。
- PyPIパッケージ配布: PyPIからすぐにインストール可能 —
pip install flamehaven-filesearch[api]の1行で完全自動インストール。 - 即時実行: インストール後、
flamehaven-apiコマンドですぐにサーバーを起動でき、ブラウザで/docsにアクセスしてAPIをテスト可能。 - 拡張性: SQLiteストレージ、プラグインアーキテクチャ、Dockerデプロイをサポート。
- 教育・研究との親和性: Gemini Embeddingを使用し、最新のLLMベースのセマンティック検索の実習に最適。
何が含まれているのか?(ハイライト)
-
Python SDK:
from flamehaven_filesearch import FlamehavenFileSearch→ 文書アップロード / 検索 / ストア管理の全機能を提供。
-
REST API:
/upload,/search,/storesエンドポイント + Swagger UI。 -
Docker対応:
docker run -e GEMINI_API_KEY=... -p 8000:8000 flamehaven/filesearch:latest -
構成:
core(エンジン)/api(FastAPI)/data(SQLite)/examples/docs
すぐに試す
1️⃣ PyPIパッケージ
Flamehaven FileSearchはPyPIからすぐにインストールできます。
最新バージョンの確認: https://pypi.org/project/flamehaven-filesearch
pip install flamehaven-filesearch[api]
2️⃣ インストール
pip install flamehaven-filesearch[api]
export GEMINI_API_KEY="your-google-gemini-key"
flamehaven-api
3️⃣ 文書アップロードと検索
curl -X POST "http://localhost:8000/upload" -F "file=@handbook.pdf"
curl "http://localhost:8000/search?q=vacation+policy"
4️⃣ SDK使用例
from flamehaven_filesearch import FlamehavenFileSearch
fs = FlamehavenFileSearch()
fs.upload_file("handbook.pdf")
print(fs.search("vacation policy")["answer"])
性能と仕様
- 環境: Ubuntu 22.04 / 2vCPU / 4GB RAM / SSD
- 10MB PDFのアップロード → 約5秒
- 検索応答の平均 → 2秒(ソース5件を引用した場合)
- ストア削除/作成 → 1秒以内
- ストレージオーバーヘッド → 文書サイズの約5 %
ロードマップ
- v1.1 : キャッシュおよびクォータ管理
- v1.2 : バッチ検索 + WebSocketストリーミング
- v2.0 : 多言語文書対応、分析ダッシュボード
- 今後 : Pinecone/WeaviateベクトルDB統合、OCR、コラボレーションストア
ライセンス
- MIT License(完全オープンソース)
🛡️ Flamehaven GitHubセキュリティおよびアカウントに関するお知らせ
最近、Flamehaven GitHubアカウント(本アカウント)で不審なログイン試行が検知され、アカウントが一時停止状態となっています。現在、GitHubセキュリティチームと協力して問題を確認中です。
今回の件により、dir2md、flashrecord、crom-efficient、Arr-medic-cyp3a4 などを含むアカウントは当面の間、利用を中止している状態です。
ご利用の皆さまにご不便をおかけし、心よりお詫び申し上げます。セキュリティ点検が完了するまで、今しばらくご理解のほどお願いいたします。
まだコメントはありません。