21 ポイント 投稿者 GN⁺ 2025-09-12 | 2件のコメント | WhatsAppで共有
  • ランドリールームに置いた個人サーバーで Searcha Page/Seek Ninja という検索エンジンを構築し、Googleに匹敵する体験を提供するDIYプロジェクト
  • 20億ページのインデックス から出発し、半年以内に 40億ドキュメント を目標とし、従来型のインデックス方式に LLMベースのキーワード拡張・文脈理解 を組み合わせている
  • 中古サーバー部品で構成した AMD EPYC 7532(32コア)・RAM 0.5TB 級の装置に総額 5,000ドル を投じ、アップグレード裁定(Upgrade Arbitrage) 戦略でコストを抑制
  • クラウド依存を最小化しつつ、LLM推論には SambaNovaのLlama 3 を使用し、Seek Ninja はプロフィール保存や位置情報利用を行わない プライバシー志向 バージョン
  • AIの導入によって 低コスト拡張 が可能になり、彼の 15万行のコードベース はLLMにより反復開発が加速され、1人で大規模システムを構築できた
  • 個人・低コスト構成でありながら ローカル検索の精度 と速度を確保し、今後トラフィック増加時には コロケーション移転 を検討するなど、代替検索の実験的可能性 を示している

背景: 小さなハードウェアで「ほぼGoogleのような」検索体験

  • Googleがスタンフォード時代に Duploケースのサーバー から出発した歴史と対比し、旧型サーバー1台でも 現代的な検索体験 に近づけることを示す事例
  • 30年前、GoogleはStanfordキャンパスでBackrubとして始まり、Duploブロック で作られたケースに40GBのデータを収めた実験的サーバーを使っていた
    • IBMとIntelの寄付により小型サーバーラックへアップグレードされたが、2025年現在のGoogle検索は単一データセンターにも収まりきらない規模へ成長
  • Ryan Pearceの Searcha Page は、元祖Googleサーバーほどの大きさの機械で 現代的な検索体験 を実現
    • サーバーは洗濯機・乾燥機の横に設置され、熱・騒音 の問題を和らげるため寝室から移設された
    • ランドリールームという制約があっても、実際の検索結果の品質は 体感として上位圏 に近い水準と評価される
  • インデックス規模は現在 約20億ドキュメント で、6カ月以内に40億ドキュメント 到達を見込む
    • 比較指標: 1998年のGoogleは 2,400万ページ、2020年は 4,000億ページ
    • 絶対規模は小さいが、自前ホスティングの単一サーバー としては非常に大きなスケール

中核技術: 従来型インデックス + LLM補助

  • 全体アーキテクチャは 従来型の検索エンジン構成 に従いつつ、LLMでキーワード拡張と文脈判断 を支援するハイブリッド設計
    • RankBrain など既存の大規模検索エンジンにおける AI内在化の歴史 を想起させ、LLMへの反感とは別に AIはすでに検索の中核要素 だったことを強調
    • LLMは データセット構築・文脈化 において 開発速度・拡張性 を高める実用的ツールとして活用される
  • 運営者は初期にはLLMで実装し、その後 従来ロジックへ置き換える 形で反復開発を行い、約15万行 のコードベースまで成長させた
    • 反復開発を含めると、実質的には 50万行 に相当する作業量と見積もられる

インフラ: 自給自足のインデクシング と中古サーバーの「アップグレード裁定」

  • 装置は AMD EPYC 7532(32コア) ベースの中古サーバーで、発売当時 3,000ドル超 級だったCPUが現在 200ドル未満 で取引されるという 価格下落 を積極活用
    • 全体の構築費用は 5,000ドル 程度で、このうち ストレージに3,000ドル前後 を投入
    • RAM 0.5TB 構成などにより 数百の同時セッション を処理できる能力を確保
  • 自前ホスティング(セルフホスティング) 方針でクラウド利用を最小限に抑えつつ、LLM推論 だけは SambaNova(Llama 3) を通じて 低コスト・高速アクセス を実現
    • Common Crawl などの公開Webコーパスを活用して クローラー・インデクサー を加速し、依存性は長期的に下げる計画

製品: Searcha PageSeek Ninja

  • Searcha Page: Googleに似た 従来型SERP UX で、ローカル検索 でも有効な結果を提供
    • メタディスクリプションの代わりに LLM要約 でクエリと文書の 関連性説明 を強化する構成に言及
  • Seek Ninja: プロフィール保存なし・位置情報不使用プライバシー優先 バリエーション
    • シークレットモード の代用として使いやすい 軽量・ミニマル なアプローチ
  • 収益化では過剰なバナーの代わりに 穏やかな提携型広告 を試験中で、トラフィックが急増した場合はコロケーションへの移転 を計画

比較事例: Wilson Lin のクラウド・ベクター型アプローチ

  • 同時代の別の個人実験として、Wilson Linクラウドネイティブ 戦略と独自の ベクターエンジン(CoreNN) を組み合わせ、超低コスト 運用を目指している
    • 文書ごとに LLM要約 を生成し、クエリ-文書マッチング を別の方法で表現
    • 技術よりも 市場・チャネル の問題のほうが大きな障壁だという認識を共有
  • Pearceは一時 ベクターDB を試したが、結果が 曖昧で芸術的 と表現されるほど不正確だったため、ランキング精度 の観点から従来手法へ回帰した

運用上の課題: 熱・騒音、ランドリールームという物理的制約

  • サーバーは寝室で による生活上の問題を引き起こしたため ユーティリティルーム に移され、ケーブル用の穴あけ などで接続性を確保
    • ドアを長時間閉めたままにすると 熱のこもり が問題になり得るため、換気 が重要要素
  • クラウド懐疑派 の傾向はあるものの、LLM・トラフィックの限界 を考慮し、データセンターのコロケーション への移行を トリガーベース で検討中

意義: 1人開発による Google追撃実験 とLLMの現実的役割

  • LLMは「検索品質を損なう道具」 という通念とは異なり、開発・スケールの加速装置 として個人に 検索エンジン構築能力 を与える現実的手段
    • 従来型インデックス + LLM補助精度・説明力 の両立を狙う実用的な折衷案
  • 低コストの中古サーバー + 公開コーパス + 低価格LLM API の組み合わせは、大規模ビッグテック資源 がなくても 代替検索 を試せることを実証
    • 今後も 言語圏拡大継続クロールコストスパム耐性 などの課題は残るが、ニッチ検索プライバシー志向 分野で 実験的競争力 を示す事例である

2件のコメント

 
savvykang 2025-09-12

ペイウォール回避リンク https://archive.is/dLEl5

 
GN⁺ 2025-09-12
Hacker Newsの意見
  • 自分でドメインインデックスを作った。各ドメイン内のすべてのページをクロールしたわけではないが、それは目的ではない。今のところ1,542,766個のドメインを保有している。多くはないが、正直に集めたデータだ。GitHubリポジトリで誰でも利用できるので、クロールを始めたいなら参考として使える。Internet-Places-Database

    • 本当にすばらしいプロジェクトだ。最初に何に着想を得たのか気になる。それと、Readmeに壊れたリンクがある https://rumca-js.github.io/internet full internet search

    • ICANNのゾーンファイルをリクエストすれば、その日の公式なドメイン一覧を入手できるのでは?

  • 2023年にこういうものを試そうとしていた! 検索エンジンを作る上でいちばん難しい部分は、実は「検索」そのものではなく、インデックスを作り、そして(ほかの人も言っているように)とても敵対的なインターネットをクロールすることだ。特にIPをローテーションしない単一の家庭用サーバーで動かす場合はなおさら。この人が成功して、コミュニティ内でMarginaliaの作者のようなリファレンス的存在になってほしい。この記事を見て、自分ももう一度やってみたくなった

    • openwebsearch.euのopen-webindexをブックマークしておくとよさそうだ。まだオープンソースではないが、ベータ段階が終われば公開されるかもしれない。詳細な計画はまだ不確かだ

    • こういうプロジェクトに commoncrawl のデータは使えるのだろうか

    • クロールをクラウドソーシングしたらどうかと考えた。IPローテーションの問題も解けるし、負荷も分散できそうだ

    • IPという問題は興味深い。以前CSGOボットを作ってSteamの価格をスクレイピングしようとしたが、プロキシサービスも借りてみたのにSteamにブロックされた。だからみんな本物のIPを買っているのか気になる

    • インデックスを持っているのと持っていないのとでは明らかに差がある。ただし結果を並べ替えるのは別問題だ。たとえば200ページ目に何を出すべきか、そしてそこにある結果にも意味があるのか、という話だ

  • https://searcha.page/ でランダムに検索したら、「検索結果の生成中にエラーが発生しました」というメッセージが出た

    • hug of deathが来たのではと心配だ。コインランドリーの温度がものすごく上がりそう

    • 今週の利用量が先週比で20倍になった。しかも検索サービス自体がボトルネックではなく、コンテキスト拡張が問題だった。利用量グラフはほとんど垂直だ。これが良い週なのかどうかもよく分からない

    • https://seek.ninja/s?q=beatles でも同じ現象を経験した

    • この現象の前は、最初の検索結果ページ(SERP)はかなり印象的だった

  • 記事の閲覧上限に達したと表示された。fastcompanyのリンクを見たのは10年ぶりくらいだ! 久しぶりに彼らの記事を読めるかと期待したが、がっかりだった。archive で関連内容を見たところ、

    • 新しい検索エンジンSearch-a-Pageには、プライバシー重視版のSeek Ninjaもある
    • 秘訣は大規模言語モデルだ。従来の検索とほぼ同じだが、AIでキーワード拡張と文脈理解を助ける点が違う
    • Wilson Linという野心的な趣味開発者が自分なりのやり方で検索エンジンを作ったというブログ記事がある ブログ
    • Marginaliaのような非商業的なおもちゃ検索エンジンの例にも言及されている Marginalia
    • 「なぜコインランドリーなのか? 熱と騒音のため」 エンジンは32コアのAMD EPYC 7532、RAM 0.5TB、総費用は$5,000、ストレージは$3,000
    • 最近Wilson Linのブログ記事を本当に一気読みしたが、検索エンジンやLLMに興味のあるアマチュアにとって非常に有益で高品質だ ブログ

    • Firefoxのリーダーモード(ときどき再読み込みを追加)なら、たいていのペイウォールを突破できる。この記事もそうだ

  • 「32コアのAMD EPYC 7532プロセッサは、発売当時は$3,000以上したが、今ではeBayで$200未満で手に入る。」こういう掘り出し物は、なぜいつも自分がホームラボ用パーツを探しているときには見つからないのだろう

    • 時間をかけてラベルがめちゃくちゃな出品も丁寧に探し、評判のない売り手からも買ってみる覚悟が必要だ

    • 'AMD EPYC 7532' で検索すると$150〜$200台の出品が大量にある。ホームラボ用パーツを探していた当時はこういう相場ではなかったのかもしれない

    • CPUではないが、今年の初めにeBayで2020年製のThinkpadワークステーションを$500で買った。新品時は$5,700だった。eBayのハードウェア市場はだいたいこんな感じだ。5年待てば価格は10分の1に落ちる

    • TheServerStore.comには時々いい掘り出し物がある。今年の初めに64コアのEPYC 7702サーバー(RAM 256GB、NVMe 8TB)を新品で約$3,000で一式そろえた

    • QCグレードのチップを買って自分で挑戦してみるのも一つの方法だ。自分もそうやって買った。自分にとっていちばん大きなコストはディスクで、その次がRAMだった。チップは比較的安く感じた

  • とてもすばらしいプロジェクトだと思うし、楽しみながら続けてほしい。自分も個人的に検索エンジンを作ることを何十回も想像してきたが、いつも壁にぶつかる。1999年のインターネットと今のインターネットはあまりにも違う。今では世界の発見(discovery)それ自体がそれほど意味を持たない。たとえば恐竜についての個人ブログを見つけても、2004年以降更新されておらず、画像やリンクはすべて壊れていて、今ではWikipediaやスミソニアンのほうがずっと良い。こうした特別な個人サイトを見つけるのは面白いが、昔ほどの価値はない。 現実的に見れば、YouTube、TikTok、Medium、Reddit、Mayo Clinicなど、各プラットフォームが特定コンテンツを独占する「ハブ」中心のネットワークへ戻りつつある。こうした大企業は個人クローラーには保守的で、Googleクローラーには友好的だ。Googleはユーザートラフィックを提供するからだ。自分のクローラーなら簡単に許可してくれるだろうか? それでも諦めない。こうしたハブ型インターネットには、ハブ認識型の検索エンジンが必要なのかもしれない

  • 'Google rival(Googleの競合)' という表現は少し大げさだ。今のGoogleがやっていること全部を考えると、単に「検索エンジン」と言うほうがむしろ正確だと思う

  • みんなに個別に返事するのは難しいが、自分がまさにその検索エンジンを運営している本人だ。そう、今日はトラフィック急増でダウンした。利用量が先週の20倍に増えたのに、まったく準備ができていなかった。頭の中では、利用者の増加はゆっくり着実に進むものだと漠然と想像していた。使ってくれた人たちに感謝するし、もしサービスがうまく動かなかったなら申し訳ない。今日は初めて本当の「火の試練」を経験した日だった

  • すばらしいイノベーションと、クラウド懐疑派なセルフホスティングの組み合わせだ。こういうものがもっと増えるべきだと思う