マージナリア検索エンジンの発展
- マージナリア検索は当初、小さな実験として始まったが、現在はフルタイムに移行したプロジェクトである。
- 検索エンジンはこれまでで最もよく動作しており、多くのマイルストーンを達成した。
- 検索エンジンはリビングルームを離れ、適切なエンタープライズサーバーへ移行した。
コードベースの整理とアプリケーションのスリム化
- 今年の主なテーマは、コードベースを整理し、アプリケーションをスリム化することだった。
- 運用負荷を管理可能な範囲に保ち、他の人がアプリケーションとコードベースにより簡単にアクセスできるようにすることに重点を置いた。
- 多くの作業が必要だったが、その成果が見え始めている。
運用改善
- 過去にはインデックスの切り替え時に数日間の停止が必要だったが、今ではそれはなくなった。
- 最近ではゼロダウンタイムのアップグレードも可能になった。
- 運用面で数週間の手動プロセスを必要としていた作業が、今ではGUIでボタンを押すだけのものに置き換えられている。
アンカーテキストキーワード対応の追加
- アンカーテキストキーワード対応を追加したことは、検索エンジンが関連性の高い結果を見つける能力に大きな影響を与えた。
- 変更が最初に行われたときは統合がうまくいかず、すぐには目立たなかったが、新しい関連性シグナルが定着するにつれて驚くような瞬間を経験した。
フルタイムへの移行
- NLnetの支援のおかげで、約8か月前からフルタイムに移行した。
- 最も難しかったのは働きすぎないことで、週に少なくとも1日は休むよう努めている。
- 十分に休むとより賢くなれると分かっているので、理論上は仕事をよりうまく進めるために時々休むことが重要である。
10億文書のインデックス化目標
- 10億文書のインデックス化に向けた道のりは、ゆっくりと進んでいる。
- ソフトウェアが処理できないからではなく、Webの信号対雑音比が良くないため、予想以上に難航している。
- 検索エンジンが比較的うまく機能している大きな理由のひとつは、インデックス化しない内容にある。
- インデックスは1年前には5,000万から1億の間だったが、最後のクロールで2億2,000万に達し、次のクロールラウンドが終わる頃には2億9,000万から3億の間になると予想されている。
クエリ解析と実行の改善
- クエリ解析と実行の分野には、まだ改善の余地が大きい。
- 実際の作業が始まる前に、影響を受けるコードを整理するための準備作業に着手した。
- プロジェクトにおける大きな飛躍は常に実験的なものであり、計画されているものもあるが、実際に大きな影響を与えるのは計画されていないものになりそうだ。
謝辞
- NLnet、FUTO、Patreon支援者、擁護者、そしてユーザーに感謝する。
- 彼らの支援がなければ、これらすべては不可能だっただろう。
GN⁺の意見
- マージナリア検索エンジンは、小さな実験として始まり、継続的な改善とコミュニティの支援を通じてフルタイムのプロジェクトへと成長した事例である。
- アンカーテキストキーワード対応のような機能改善は、検索エンジンの性能を大きく向上させる重要な変化として作用している。
- このプロジェクトは、オープンソースコミュニティと開発者に協業と貢献の機会を提供し、検索エンジン技術の発展に貢献している。
1件のコメント
Hacker Newsの意見