ir - qmd代替のローカル検索エンジン(韓国語前処理対応)
(github.com/vlwkaos)既存のqmdを使っていていくつか問題を見つけたため、置き換え用のローカル検索エンジンを作りました。
1つのsqlite DBにすべてのcollectionを一度にindexing/embeddingしなければならない不便さ
-> これを分離することで、プロジェクト単位でコレクション管理が可能になり、複数のagentで同時に作業する際もインデックス更新などが円滑になります。
英語ベースの基本前処理しかサポートしていない問題
-> コマンドのi/oベースのpreprocessorを直接追加できるようにしています。リポジトリには、複数のベンチマークの結果でもっとも性能が良かったlindera-koを残してあります。インストールはガイドを確認してください。
BM25 gap test失敗時、ハイブリッド検索用のモデルをcold loadingするのに長い時間がかかる問題
-> daemonが動作し、モデルをメモリ上に載せておきます。
qmdと比べてwarm状態で20倍以上高速で、
関連性スコアに関するベンチマークがないqmdと違い、
実際のcorpusを対象に多少のscoreチューニングを行いました。
初公開のため問題が発生する可能性があります。コメントでお知らせいただくか、issueとして登録していただけると助かります。
韓国語ガイド: https://github.com/vlwkaos/ir/blob/main/README.ko.md
2件のコメント
QMDの限界のせいで悩んでいましたが、期待できそうですね!
おお、活用させていただきます!