21 ポイント 投稿者 GN⁺ 2025-09-12 | まだコメントはありません。 | WhatsAppで共有
  • ランドリールームに置いた個人サーバーで Searcha Page/Seek Ninja という検索エンジンを構築し、Googleに匹敵する体験を提供するDIYプロジェクト
  • 20億ページのインデックス から出発し、半年以内に 40億ドキュメント を目標とし、従来型のインデックス方式に LLMベースのキーワード拡張・文脈理解 を組み合わせている
  • 中古サーバー部品で構成した AMD EPYC 7532(32コア)・RAM 0.5TB 級の装置に総額 5,000ドル を投じ、アップグレード裁定(Upgrade Arbitrage) 戦略でコストを抑制
  • クラウド依存を最小化しつつ、LLM推論には SambaNovaのLlama 3 を使用し、Seek Ninja はプロフィール保存や位置情報利用を行わない プライバシー志向 バージョン
  • AIの導入によって 低コスト拡張 が可能になり、彼の 15万行のコードベース はLLMにより反復開発が加速され、1人で大規模システムを構築できた
  • 個人・低コスト構成でありながら ローカル検索の精度 と速度を確保し、今後トラフィック増加時には コロケーション移転 を検討するなど、代替検索の実験的可能性 を示している

背景: 小さなハードウェアで「ほぼGoogleのような」検索体験

  • Googleがスタンフォード時代に Duploケースのサーバー から出発した歴史と対比し、旧型サーバー1台でも 現代的な検索体験 に近づけることを示す事例
  • 30年前、GoogleはStanfordキャンパスでBackrubとして始まり、Duploブロック で作られたケースに40GBのデータを収めた実験的サーバーを使っていた
    • IBMとIntelの寄付により小型サーバーラックへアップグレードされたが、2025年現在のGoogle検索は単一データセンターにも収まりきらない規模へ成長
  • Ryan Pearceの Searcha Page は、元祖Googleサーバーほどの大きさの機械で 現代的な検索体験 を実現
    • サーバーは洗濯機・乾燥機の横に設置され、熱・騒音 の問題を和らげるため寝室から移設された
    • ランドリールームという制約があっても、実際の検索結果の品質は 体感として上位圏 に近い水準と評価される
  • インデックス規模は現在 約20億ドキュメント で、6カ月以内に40億ドキュメント 到達を見込む
    • 比較指標: 1998年のGoogleは 2,400万ページ、2020年は 4,000億ページ
    • 絶対規模は小さいが、自前ホスティングの単一サーバー としては非常に大きなスケール

中核技術: 従来型インデックス + LLM補助

  • 全体アーキテクチャは 従来型の検索エンジン構成 に従いつつ、LLMでキーワード拡張と文脈判断 を支援するハイブリッド設計
    • RankBrain など既存の大規模検索エンジンにおける AI内在化の歴史 を想起させ、LLMへの反感とは別に AIはすでに検索の中核要素 だったことを強調
    • LLMは データセット構築・文脈化 において 開発速度・拡張性 を高める実用的ツールとして活用される
  • 運営者は初期にはLLMで実装し、その後 従来ロジックへ置き換える 形で反復開発を行い、約15万行 のコードベースまで成長させた
    • 反復開発を含めると、実質的には 50万行 に相当する作業量と見積もられる

インフラ: 自給自足のインデクシング と中古サーバーの「アップグレード裁定」

  • 装置は AMD EPYC 7532(32コア) ベースの中古サーバーで、発売当時 3,000ドル超 級だったCPUが現在 200ドル未満 で取引されるという 価格下落 を積極活用
    • 全体の構築費用は 5,000ドル 程度で、このうち ストレージに3,000ドル前後 を投入
    • RAM 0.5TB 構成などにより 数百の同時セッション を処理できる能力を確保
  • 自前ホスティング(セルフホスティング) 方針でクラウド利用を最小限に抑えつつ、LLM推論 だけは SambaNova(Llama 3) を通じて 低コスト・高速アクセス を実現
    • Common Crawl などの公開Webコーパスを活用して クローラー・インデクサー を加速し、依存性は長期的に下げる計画

製品: Searcha PageSeek Ninja

  • Searcha Page: Googleに似た 従来型SERP UX で、ローカル検索 でも有効な結果を提供
    • メタディスクリプションの代わりに LLM要約 でクエリと文書の 関連性説明 を強化する構成に言及
  • Seek Ninja: プロフィール保存なし・位置情報不使用プライバシー優先 バリエーション
    • シークレットモード の代用として使いやすい 軽量・ミニマル なアプローチ
  • 収益化では過剰なバナーの代わりに 穏やかな提携型広告 を試験中で、トラフィックが急増した場合はコロケーションへの移転 を計画

比較事例: Wilson Lin のクラウド・ベクター型アプローチ

  • 同時代の別の個人実験として、Wilson Linクラウドネイティブ 戦略と独自の ベクターエンジン(CoreNN) を組み合わせ、超低コスト 運用を目指している
    • 文書ごとに LLM要約 を生成し、クエリ-文書マッチング を別の方法で表現
    • 技術よりも 市場・チャネル の問題のほうが大きな障壁だという認識を共有
  • Pearceは一時 ベクターDB を試したが、結果が 曖昧で芸術的 と表現されるほど不正確だったため、ランキング精度 の観点から従来手法へ回帰した

運用上の課題: 熱・騒音、ランドリールームという物理的制約

  • サーバーは寝室で による生活上の問題を引き起こしたため ユーティリティルーム に移され、ケーブル用の穴あけ などで接続性を確保
    • ドアを長時間閉めたままにすると 熱のこもり が問題になり得るため、換気 が重要要素
  • クラウド懐疑派 の傾向はあるものの、LLM・トラフィックの限界 を考慮し、データセンターのコロケーション への移行を トリガーベース で検討中

意義: 1人開発による Google追撃実験 とLLMの現実的役割

  • LLMは「検索品質を損なう道具」 という通念とは異なり、開発・スケールの加速装置 として個人に 検索エンジン構築能力 を与える現実的手段
    • 従来型インデックス + LLM補助精度・説明力 の両立を狙う実用的な折衷案
  • 低コストの中古サーバー + 公開コーパス + 低価格LLM API の組み合わせは、大規模ビッグテック資源 がなくても 代替検索 を試せることを実証
    • 今後も 言語圏拡大継続クロールコストスパム耐性 などの課題は残るが、ニッチ検索プライバシー志向 分野で 実験的競争力 を示す事例である

まだコメントはありません。

まだコメントはありません。