12 ポイント 投稿者 xguru 2021-07-21 | 1件のコメント | WhatsAppで共有
  • Rust + Tantivy ベース(Rust で実装された Apache Lucene に似たオープンソース、日本語トークナイザー対応)

  • 大規模データセットのインデックス作成に適した設計

→ Compute と Storage を分離:S3 のようなストレージを検索可能

→ 検索クラスターの管理が容易:数秒でインスタンスの追加・削除が可能

  • サポート機能

→ インデックスとクラスター管理のためのシンプルな CLI

→ ローカル/リモートインデックス

→ Stateless インスタンス

→ Byte Range クエリをサポートする任意のオブジェクトストレージで利用可能

→ フルテキスト検索(Phrase Query を含む)

→ タイムパーティショニングを標準搭載

→ Boolean クエリ対応

→ Text、i64、f64、date、bytes、composite types object、array データ型に対応

1件のコメント

 
xguru 2021-07-21

どのようにしてコスト効率の高い実装を実現したのかは、ブログに書かれた紹介記事にあります。

以前「 Bayard - Rust で実装されたフルテキスト検索 & インデキシングサーバー https://ja.news.hada.io/topic?id=841 」を紹介したときは Tantivy に韓国語トークナイザーがありませんでしたが、追加されたようですね。

https://github.com/lindera-morphology/lindera-ko-dic-builder

韓国語トークナイザー