1 ポイント 投稿者 GN⁺ 2026-01-01 | 1件のコメント | WhatsAppで共有
  • ExoPriorsのAlignment Scryは、Claude Codeを通じてarXiv、Hacker News、LessWrongなどから収集した6,000万件の文書と2,200万件の埋め込みを、SQLとベクトル演算で検索できるプラットフォーム
  • 公開APIキーを提供し、BM25ベースのテキスト検索pgvectorのコサイン距離ベースのセマンティック検索の両方をサポート
  • alignment.search()alignment.search_exhaustive() 関数により、高速なサンプル検索完全検索を分けて実行可能
  • Claude WebまたはClaude Code環境で簡単に設定してAPIを呼び出せ、個人ハンドル(@handle)と埋め込み保存機能を提供
  • 研究者に無料で公開されており、AI研究および情報探索の自動化に向けた大規模データ照会の実験環境として重要

概要

  • Alignment Scryは、知能爆発関連文書インデックスを対象にSQLとベクトル代数演算を実行できる検索システム
    • 主なデータソースはarXiv、Hacker News、LessWrong、community-archive.orgなど
    • ユーザーはClaude Codeを通じて自然言語クエリやSQLコマンドでデータを探索可能
  • システムはAlpha実験段階で、Lens StudioというLessWrong中心の探索ツールも含む

Claude統合とアクセス方法

  • Claude CodeまたはClaude WebでAPIアクセス設定を行えばすぐに利用可能
    • コード実行、ファイル作成、ネットワークアクセスを許可し、api.exopriors.com をドメインのホワイトリストに追加
  • 公開APIキー exopriors_public_readonly_v1_2025 により、ログインなしでアクセス可能
  • ClaudeモデルがAPI呼び出しのたびにユーザー承認手続きを経ないように --dangerously-skip-permissions オプションを使用可能(リスクあり)
  • Opus 4.5以上のモデル利用を推奨し、プロンプトインジェクション攻撃のリスクがあることを明記

主な機能

  • Query: 6,000万件の文書に対してSQLクエリを実行
  • Embed: セマンティック検索用の埋め込みを保存・再利用
  • Timeout: 負荷に応じて20〜120秒前後に自動調整
  • 検索対象: post、comment、paper、tweetなど多様な文書タイプ
  • Lexical Search: BM25ベースのキーワード検索、フレーズ検索、ファジーマッチングをサポート
  • Semantic Search: pgvectorのコサイン距離(<=>)を使った意味類似検索

クエリと性能管理

  • alignment.search() は上位100件のBM25結果のみを返し、高速探索向けのサンプリングに適する
  • alignment.search_exhaustive()完全検索を実行し、ページネーションをサポート
  • 性能ガイドライン
    • 単純検索: 1〜5秒
    • 埋め込みJOIN(50万行以下): 5〜20秒
    • 複雑な集計(200万行以下): 20〜60秒
    • 大規模スキャン(500万行以上): 負荷時はタイムアウトの可能性あり
  • クエリ実行前の要約表示とユーザー確認手続きにより過負荷を防止
  • LIMIT、estimated_rows、JOINサイズなどを基準に重いクエリを自動識別

データ構造とビュー

  • alignment スキーマ内にmaterialized viewを提供
    • 例: mv_hackernews_postsmv_arxiv_papersmv_lesswrong_comments など
    • 主なカラム: entity_idurisourcekindoriginal_authortitlescoreembedding など
  • alignment.entities テーブルとJOINしてメタデータにアクセス可能
  • alignment.author_topics() 関数で特定トピックと著者の交差分析が可能

ベクトル演算と組み合わせ機能

  • <=>: pgvectorのコサイン距離演算子(0に近いほど類似)
  • @handle: 保存済みベクトル参照
  • ベクトル混合: scale(@rigor,.6) - scale(@hype,.3) の形で概念を重み付きで組み合わせ
  • バイアス除去: debias_vector(@axis, @topic) で特定トピックの影響を除去
  • **中心ベクトル(centroid)**計算により、著者や時代の平均的な意味表現が可能
  • **時間変化(temporal delta)**計算により、思想の移動を追跡可能

ハイブリッド検索と例

  • Lexical + Semanticの組み合わせ検索をサポート
    • 例: WITH hits AS (search(...)) <=> @q の形でテキスト候補を意味ベクトルで再ランキング
  • BM25の例
    • alignment.search('corrigibility')
    • alignment.search('"inner alignment"')
  • SQLの例
    • 特定トピックの上位著者一覧を計算
    • alignment.search_exhaustive() で大規模結果をページネーション

システム規模と提供条件

  • 6,500万件超の文書2,200万件超の埋め込み600GB超のインデックスを保有
  • 研究者に無料提供、150万埋め込みトークンを含む
  • アカウント作成時に個人ハンドル名前空間、長いタイムアウト(最大10分)、拡張されたクエリ上限を提供

要約

  • Alignment Scryは、Claudeと組み合わされた大規模AI研究データ照会プラットフォームであり、SQLとベクトル演算を組み合わせたハイブリッド検索をサポート
  • 公開APIと明確なクエリガイドラインを通じて、AI研究者と開発者に実験的なデータアクセス性を提供
  • 600GB規模のインデックスと6,000万件以上の文書を基盤に、AIアラインメントおよび知能研究に関する探索を自動化できる環境を構築

1件のコメント

 
GN⁺ 2026-01-01
Hacker Newsのコメント
  • このプロジェクトが単なるブラックボックスのチャットボットではなく、SQLを生成する点が気に入った
    LLMをデータベースとして使うのではなく、自然言語を構造化クエリ言語に翻訳するツールとして活用するのが正しい方向だと思う
    ただ、APIが悪用されないようにtimeoutやsandboxingを行っているのか気になる
    また、異なるデータセット間で意味が混ざるsemantic bleedingがあるのかも気になる — たとえば「optimization」がArXiv、LessWrong、HNでそれぞれ違う意味で使われる可能性がある

    • その通り、人は時に精密さと制御性を求める
      SQLクエリプランナーは、多数のビューやインデックスを扱うとき今でも強力だ
      セキュリティとrate-limitにもかなり気を配っており、ASTパースで危険なjoinを遮断している
      Claudeは、異なるドメイン間の意味差を減らすためにベクトル中心(centroid)合成を活用できる
      たとえば「optimization」という語のLessWrong埋め込みとArXiv埋め込みを平均して比較実験できる
    • 自分も似たアプローチを取った。Claude CodeとCodexの会話履歴をローカルDB化し、CLIから直接クエリできるようにした
      実装過程はブログ記事にまとめた
      現在はmacOSクライアントだが、Linux向けエンジンも準備中だ
    • こういうアプローチこそ「AIバブルが弾けても残る本当のイノベーション」だと思う
      自然言語の解釈と翻訳の活用範囲はとてつもなく広い
      結局、投資もこうした実用的なツールへ移っていくはずだ
    • 実験はしていないが、経験上埋め込みモデルのサイズによって単語の意味の分離具合が変わる
      大きいモデルほど、同じ語の異なる意味をよりうまく区別する
  • 本当に素晴らしいプロジェクトだ。今進めている弦理論研究でCalabi–Yau多様体を探すのにすぐ使ってみる予定だ
    Claudeと一緒に調べた結果、遺伝的アルゴリズムを使ったflux vacua論文を2本見つけられ、SQL + BM25の組み合わせで非常に精密な検索ができた
    ただしbashでの引用符エスケープが煩雑で、alignment.search()の100件制限のため、完全な結果を得るにはsearch_exhaustive() を使う必要があった

    • 自分もこのツールで最近DESIのダークエネルギー変化研究を調べた
      ClaudeがExoPriorsコーパスを分析して主要論文と結果を整理してくれたが、DESIの結果は弦理論の探索方向を変えうることを示唆している
      特にarXiv:2511.23463の論文は、ダークエネルギーの「phantom crossing」現象をaxion-dilaton混合で説明している
      今後は(w₀, wₐ)パラメータを適合関数に含め、axionダイナミクスを追加する方向で研究を拡張する計画だ
      関連記事: BBC報道
  • 「dangerously-skip-permissions」フラグを安全でないテキストと一緒に使うのは危険だ
    インターネット由来の入力にはプロンプトインジェクションが混ざっている可能性があるので、必ずsandbox環境で実行すべきだ

    • 自分も今日Claudeをdevcontainerで動かし始めたが、どのsandboxオプションが一番簡単なのか気になる
  • 生命科学論文の補足資料(Supplementary Material) 内にある遺伝子・タンパク質情報をクエリする方法を探している
    今はインデックス化がばらばらで、過去15年のゲノム研究の知見が埋もれてしまっている
    オープンアクセスのデータを活用すれば、このアプローチはうまくいきそうだ

    • 自分も似たものを作った — papers2dataset
      OpenAlexを使って引用グラフを探索し、オープンアクセスPDFを解析している
      自分は低温保護剤(cryoprotective agents) を温度別に探すのに使ったが、あなたの問題にも拡張できる
  • 「intelligence explosion」や「ARBITRARY SQL + VECTOR ALGEBRA」のような表現は大げさなテック用語のように聞こえる

    • 大げさではない。今は実際にソフトウェア知能爆発器の時代だ
      Opus 4.5とGPT-5.2-Codex-xhighのおかげで開発速度が爆発的に上がった
      Scryは大規模コーパスに対して任意のSQLを実行でき、ベクトル合成を自由に試せる唯一のツールだ
  • プロンプトと外部データセットを組み合わせるのは、今もっとも手軽で強力な探索チャネル
    まるで「curl | bash」のように素早く実験できる

    • その通り。Prompt + Tool + External Dataset の組み合わせは途方もない可能性を持っている
  • 「state-of-the-art」な研究ツールだと言っていたが、具体的に何がそんなに最先端なのか気になる

    • 規模の問題だ。arXiv論文本文をすべてクエリできるツールがどれだけあるだろうか
    • 単なるマーケティング用語にすぎない。保護された表現ではないので誰でも使える
      たとえばGemmaモデルも競合より性能が低かったが「state-of-the-art」と呼ばれていた
      Juiceroも発売当時は最先端だったが、結局は手で絞るほうがよかった
    • ツールは最先端でも、データソースは歴史的
    • 「最初だから」=「最高」という意味なのかと疑問に思う
  • 自分は現在自律型の学術研究システムを開発中で、このプロジェクトを統合する予定だ
    今はEdison Scientific APIとカスタムプロンプトを使っているが、オープンソース化の計画があるのか気になる
    関連プロジェクト: gia-agentic-short

    • オープンソースとして公開したいが、正直いまは生活が厳しい
      5,000万ドルを確保できれば すぐ公開できると思う