現在のGeekNewsはGoogle検索を埋め込んで利用していますが、
個人的には少し使いづらさを感じています。
最近見たニュースのおおよそのキーワードを思い出して検索しても、
新しい順に並べ替える方法がなく、見つけにくいことがあります。
ベクターストアをwasmで組み込んで実装した例も見ましたが、
検索エンジンは自分の専門分野ではないためか、構想しづらいですね。
フロントエンド側でfuzzy searchなどを実装すると、どうしてもサーバー負荷が大きくなりそうですが、
雑談レベルの話ではありますが、これを効果的に実装する方法はあるでしょうか?
7件のコメント
検索好きの検索ジャンキーなのですが、1日にどのくらいの検索数が出ているのでしょうか?
もし少ないのであれば、既存の検索方法は大まかに維持しつつ、rerankモデルを使うことで自然言語検索を試すことはできます。
以前、私が作ったサービスのおおまかな検索構造です。
ざっくり一次的に
esにクエリを投げたあと、Cohere Rerank API を適用して、自然言語ベースで rerank score が最もよく合う本文を基準に配信しています。ただ、よく考えてみると Google を埋め込んだとのことですが、検索結果項目の内部にある HTML 本文を取得する方法があまりなさそうですね。それでもひとまずリンクは残しておきます。
リンク: https://dev-wiki.dev/reading/tech/1
私はとても暇で、検索が好きなので、もしこの件についてまだ話すことがあれば残していただけるとありがたいです : )
私の場合、最新の結果が先に出てこない点がやや不便に感じられます。昔の bbs 掲示板のように、単純に LIKE クエリで検索するほうが、自分のニーズにはより合っている気がします。速度のために range を少し考慮する必要はありそうですが……
私も不便だと感じる点に共感します。たとえば「AI」と検索したときに、5年前の記事が1ページ目に出てくることがかなりあります。
埋め込まれたGoogle検索の結果がjsonで出力されているようなので、それを取得して並べ替えてみてはどうでしょうか。
https://cse.google.com/cse/element/v1 のリクエストを確認してみてください
Googleで直接検索するのはどうでしょうか?
query: site:news.hada.io duckdb
https://google.com/search/…