1 ポイント 投稿者 GN⁺ 2024-02-26 | 1件のコメント | WhatsAppで共有

マージナリア検索エンジンの発展

  • マージナリア検索は当初、小さな実験として始まったが、現在はフルタイムに移行したプロジェクトである。
  • 検索エンジンはこれまでで最もよく動作しており、多くのマイルストーンを達成した。
  • 検索エンジンはリビングルームを離れ、適切なエンタープライズサーバーへ移行した。

コードベースの整理とアプリケーションのスリム化

  • 今年の主なテーマは、コードベースを整理し、アプリケーションをスリム化することだった。
  • 運用負荷を管理可能な範囲に保ち、他の人がアプリケーションとコードベースにより簡単にアクセスできるようにすることに重点を置いた。
  • 多くの作業が必要だったが、その成果が見え始めている。

運用改善

  • 過去にはインデックスの切り替え時に数日間の停止が必要だったが、今ではそれはなくなった。
  • 最近ではゼロダウンタイムのアップグレードも可能になった。
  • 運用面で数週間の手動プロセスを必要としていた作業が、今ではGUIでボタンを押すだけのものに置き換えられている。

アンカーテキストキーワード対応の追加

  • アンカーテキストキーワード対応を追加したことは、検索エンジンが関連性の高い結果を見つける能力に大きな影響を与えた。
  • 変更が最初に行われたときは統合がうまくいかず、すぐには目立たなかったが、新しい関連性シグナルが定着するにつれて驚くような瞬間を経験した。

フルタイムへの移行

  • NLnetの支援のおかげで、約8か月前からフルタイムに移行した。
  • 最も難しかったのは働きすぎないことで、週に少なくとも1日は休むよう努めている。
  • 十分に休むとより賢くなれると分かっているので、理論上は仕事をよりうまく進めるために時々休むことが重要である。

10億文書のインデックス化目標

  • 10億文書のインデックス化に向けた道のりは、ゆっくりと進んでいる。
  • ソフトウェアが処理できないからではなく、Webの信号対雑音比が良くないため、予想以上に難航している。
  • 検索エンジンが比較的うまく機能している大きな理由のひとつは、インデックス化しない内容にある。
  • インデックスは1年前には5,000万から1億の間だったが、最後のクロールで2億2,000万に達し、次のクロールラウンドが終わる頃には2億9,000万から3億の間になると予想されている。

クエリ解析と実行の改善

  • クエリ解析と実行の分野には、まだ改善の余地が大きい。
  • 実際の作業が始まる前に、影響を受けるコードを整理するための準備作業に着手した。
  • プロジェクトにおける大きな飛躍は常に実験的なものであり、計画されているものもあるが、実際に大きな影響を与えるのは計画されていないものになりそうだ。

謝辞

  • NLnet、FUTO、Patreon支援者、擁護者、そしてユーザーに感謝する。
  • 彼らの支援がなければ、これらすべては不可能だっただろう。

GN⁺の意見

  • マージナリア検索エンジンは、小さな実験として始まり、継続的な改善とコミュニティの支援を通じてフルタイムのプロジェクトへと成長した事例である。
  • アンカーテキストキーワード対応のような機能改善は、検索エンジンの性能を大きく向上させる重要な変化として作用している。
  • このプロジェクトは、オープンソースコミュニティと開発者に協業と貢献の機会を提供し、検索エンジン技術の発展に貢献している。

1件のコメント

 
GN⁺ 2024-02-26
Hacker Newsの意見
  • あるユーザーは、数値モデリングに関する非常に具体的な資料を探すために、このサイトをブックマークしている。Googleでは見つからない80年代と90年代のソルバー、メッシュ生成、最適化手法に関する資料を発見し、専門家が作成したサイトをGoogleでは決して見つけられなかったものまで探し出せるので、とても価値があると感じている。
  • Webのシグナル対ノイズ比が低く、予想以上に苦労している。検索エンジンが比較的うまく機能する理由の1つは、インデックスしないものがあるからだ。
  • あるユーザーは、IPv6対応のためにC&C Tiberian SunをバイナリパッチしたランダムなWebサイトを見つけ、昔のWebを懐かしく思った。これはFraviaのSearchloresを思い出させ、Umberto Ecoがコンピュータに興味を持っていたら、きっとこんな感じだっただろうと言っている。まるで『薔薇の名前』の図書館の迷宮で何か驚くべきものを見つけ、後になって永遠に失ってしまうような体験だという。
  • 別のユーザーは、昔のように感じると述べている。1998年にはAltaVistaでも『西部戦線異状なし』の本と映画の違いを見つけられなかったが、今ではそのテーマについて語る無数の個人ブログ、大学論文、コードサイト、メーリングリストでの議論、ブログ、Rustの議論グループ、個人Webサイト、専門家の議論などを見つけることができる。
  • あるユーザーは、"transformers intuition"を検索したとき、その結果に驚いたという。Googleの結果はSEOに最適化されたWebサイト(主にMedium)や、内容の劣る派手なサイトを表示したのに対し、この検索エンジンの結果は素晴らしかったと述べている。
  • あるユーザーは、Common Crawlが役に立つのか疑問に思っている。現在は約100TB、33.5億ページに達するデータがあり、S3上で直接処理しない限りダウンロードには時間がかかるだろうし、シグナル対ノイズ比がどうなのかも分からないという。
  • 「ランダムサイト」機能に疑問を呈するユーザーもいる。均一にサンプリングされると期待していたが、特定のサイトが繰り返し返されているように見えるという。
  • あるユーザーは、Googleに慣れているので頻繁には使わないが、Marginaliaは素晴らしいプロジェクトだと思っており、スパムSEOサイトやAI生成の回答がますます一般的になる中で、今後はもっと使うようになるだろうと述べている。
  • 最後に、あるユーザーは最近のGoogle検索結果と比較してみたところ、インドのテストクリケットにおける最低スコアの検索結果は良くなく、RAID計算機の結果は悪くなかったもののノイズが混じっており、『西部戦線異状なし』の映画と本の違いについての検索では結果がまったく出なかったと述べている。