Quickwit - コスト効率に優れた分散検索エンジンのオープンソース
(github.com)-
Rust + Tantivy ベース(Rust で実装された Apache Lucene に似たオープンソース、日本語トークナイザー対応)
-
大規模データセットのインデックス作成に適した設計
→ Compute と Storage を分離:S3 のようなストレージを検索可能
→ 検索クラスターの管理が容易:数秒でインスタンスの追加・削除が可能
- サポート機能
→ インデックスとクラスター管理のためのシンプルな CLI
→ ローカル/リモートインデックス
→ Stateless インスタンス
→ Byte Range クエリをサポートする任意のオブジェクトストレージで利用可能
→ フルテキスト検索(Phrase Query を含む)
→ タイムパーティショニングを標準搭載
→ Boolean クエリ対応
→ Text、i64、f64、date、bytes、composite types object、array データ型に対応
1件のコメント
どのようにしてコスト効率の高い実装を実現したのかは、ブログに書かれた紹介記事にあります。
Quickwit: A highly cost-efficient search engine in Rust https://quickwit.io/blog/quickwit-first-release/
Tantivy https://github.com/tantivy-search/tantivy
以前「 Bayard - Rust で実装されたフルテキスト検索 & インデキシングサーバー https://ja.news.hada.io/topic?id=841 」を紹介したときは Tantivy に韓国語トークナイザーがありませんでしたが、追加されたようですね。
https://github.com/lindera-morphology/lindera-ko-dic-builder
韓国語トークナイザー