- ExoPriorsのAlignment Scryは、Claude Codeを通じてarXiv、Hacker News、LessWrongなどから収集した6,000万件の文書と2,200万件の埋め込みを、SQLとベクトル演算で検索できるプラットフォーム
- 公開APIキーを提供し、BM25ベースのテキスト検索とpgvectorのコサイン距離ベースのセマンティック検索の両方をサポート
alignment.search() と alignment.search_exhaustive() 関数により、高速なサンプル検索と完全検索を分けて実行可能
- Claude WebまたはClaude Code環境で簡単に設定してAPIを呼び出せ、個人ハンドル(@handle)と埋め込み保存機能を提供
- 研究者に無料で公開されており、AI研究および情報探索の自動化に向けた大規模データ照会の実験環境として重要
概要
- Alignment Scryは、知能爆発関連文書インデックスを対象にSQLとベクトル代数演算を実行できる検索システム
- 主なデータソースはarXiv、Hacker News、LessWrong、community-archive.orgなど
- ユーザーはClaude Codeを通じて自然言語クエリやSQLコマンドでデータを探索可能
- システムはAlpha実験段階で、Lens StudioというLessWrong中心の探索ツールも含む
Claude統合とアクセス方法
- Claude CodeまたはClaude WebでAPIアクセス設定を行えばすぐに利用可能
- コード実行、ファイル作成、ネットワークアクセスを許可し、
api.exopriors.com をドメインのホワイトリストに追加
- 公開APIキー
exopriors_public_readonly_v1_2025 により、ログインなしでアクセス可能
- ClaudeモデルがAPI呼び出しのたびにユーザー承認手続きを経ないように
--dangerously-skip-permissions オプションを使用可能(リスクあり)
- Opus 4.5以上のモデル利用を推奨し、プロンプトインジェクション攻撃のリスクがあることを明記
主な機能
- Query: 6,000万件の文書に対してSQLクエリを実行
- Embed: セマンティック検索用の埋め込みを保存・再利用
- Timeout: 負荷に応じて20〜120秒前後に自動調整
- 検索対象: post、comment、paper、tweetなど多様な文書タイプ
- Lexical Search: BM25ベースのキーワード検索、フレーズ検索、ファジーマッチングをサポート
- Semantic Search: pgvectorのコサイン距離(
<=>)を使った意味類似検索
クエリと性能管理
alignment.search() は上位100件のBM25結果のみを返し、高速探索向けのサンプリングに適する
alignment.search_exhaustive() は完全検索を実行し、ページネーションをサポート
- 性能ガイドライン
- 単純検索: 1〜5秒
- 埋め込みJOIN(50万行以下): 5〜20秒
- 複雑な集計(200万行以下): 20〜60秒
- 大規模スキャン(500万行以上): 負荷時はタイムアウトの可能性あり
- クエリ実行前の要約表示とユーザー確認手続きにより過負荷を防止
- LIMIT、estimated_rows、JOINサイズなどを基準に重いクエリを自動識別
データ構造とビュー
alignment スキーマ内にmaterialized viewを提供
- 例:
mv_hackernews_posts、mv_arxiv_papers、mv_lesswrong_comments など
- 主なカラム:
entity_id、uri、source、kind、original_author、title、score、embedding など
alignment.entities テーブルとJOINしてメタデータにアクセス可能
alignment.author_topics() 関数で特定トピックと著者の交差分析が可能
ベクトル演算と組み合わせ機能
<=>: pgvectorのコサイン距離演算子(0に近いほど類似)
@handle: 保存済みベクトル参照
- ベクトル混合:
scale(@rigor,.6) - scale(@hype,.3) の形で概念を重み付きで組み合わせ
- バイアス除去:
debias_vector(@axis, @topic) で特定トピックの影響を除去
- **中心ベクトル(centroid)**計算により、著者や時代の平均的な意味表現が可能
- **時間変化(temporal delta)**計算により、思想の移動を追跡可能
ハイブリッド検索と例
- Lexical + Semanticの組み合わせ検索をサポート
- 例:
WITH hits AS (search(...)) <=> @q の形でテキスト候補を意味ベクトルで再ランキング
- BM25の例
alignment.search('corrigibility')
alignment.search('"inner alignment"')
- SQLの例
- 特定トピックの上位著者一覧を計算
alignment.search_exhaustive() で大規模結果をページネーション
システム規模と提供条件
- 6,500万件超の文書、2,200万件超の埋め込み、600GB超のインデックスを保有
- 研究者に無料提供、150万埋め込みトークンを含む
- アカウント作成時に個人ハンドル名前空間、長いタイムアウト(最大10分)、拡張されたクエリ上限を提供
要約
- Alignment Scryは、Claudeと組み合わされた大規模AI研究データ照会プラットフォームであり、SQLとベクトル演算を組み合わせたハイブリッド検索をサポート
- 公開APIと明確なクエリガイドラインを通じて、AI研究者と開発者に実験的なデータアクセス性を提供
- 600GB規模のインデックスと6,000万件以上の文書を基盤に、AIアラインメントおよび知能研究に関する探索を自動化できる環境を構築
1件のコメント
Hacker Newsのコメント
このプロジェクトが単なるブラックボックスのチャットボットではなく、SQLを生成する点が気に入った
LLMをデータベースとして使うのではなく、自然言語を構造化クエリ言語に翻訳するツールとして活用するのが正しい方向だと思う
ただ、APIが悪用されないようにtimeoutやsandboxingを行っているのか気になる
また、異なるデータセット間で意味が混ざるsemantic bleedingがあるのかも気になる — たとえば「optimization」がArXiv、LessWrong、HNでそれぞれ違う意味で使われる可能性がある
SQLクエリプランナーは、多数のビューやインデックスを扱うとき今でも強力だ
セキュリティとrate-limitにもかなり気を配っており、ASTパースで危険なjoinを遮断している
Claudeは、異なるドメイン間の意味差を減らすためにベクトル中心(centroid)合成を活用できる
たとえば「optimization」という語のLessWrong埋め込みとArXiv埋め込みを平均して比較実験できる
実装過程はブログ記事にまとめた
現在はmacOSクライアントだが、Linux向けエンジンも準備中だ
自然言語の解釈と翻訳の活用範囲はとてつもなく広い
結局、投資もこうした実用的なツールへ移っていくはずだ
大きいモデルほど、同じ語の異なる意味をよりうまく区別する
本当に素晴らしいプロジェクトだ。今進めている弦理論研究でCalabi–Yau多様体を探すのにすぐ使ってみる予定だ
Claudeと一緒に調べた結果、遺伝的アルゴリズムを使ったflux vacua論文を2本見つけられ、SQL + BM25の組み合わせで非常に精密な検索ができた
ただしbashでの引用符エスケープが煩雑で、alignment.search()の100件制限のため、完全な結果を得るにはsearch_exhaustive() を使う必要があった
ClaudeがExoPriorsコーパスを分析して主要論文と結果を整理してくれたが、DESIの結果は弦理論の探索方向を変えうることを示唆している
特にarXiv:2511.23463の論文は、ダークエネルギーの「phantom crossing」現象をaxion-dilaton混合で説明している
今後は(w₀, wₐ)パラメータを適合関数に含め、axionダイナミクスを追加する方向で研究を拡張する計画だ
関連記事: BBC報道
「dangerously-skip-permissions」フラグを安全でないテキストと一緒に使うのは危険だ
インターネット由来の入力にはプロンプトインジェクションが混ざっている可能性があるので、必ずsandbox環境で実行すべきだ
生命科学論文の補足資料(Supplementary Material) 内にある遺伝子・タンパク質情報をクエリする方法を探している
今はインデックス化がばらばらで、過去15年のゲノム研究の知見が埋もれてしまっている
オープンアクセスのデータを活用すれば、このアプローチはうまくいきそうだ
OpenAlexを使って引用グラフを探索し、オープンアクセスPDFを解析している
自分は低温保護剤(cryoprotective agents) を温度別に探すのに使ったが、あなたの問題にも拡張できる
「intelligence explosion」や「ARBITRARY SQL + VECTOR ALGEBRA」のような表現は大げさなテック用語のように聞こえる
Opus 4.5とGPT-5.2-Codex-xhighのおかげで開発速度が爆発的に上がった
Scryは大規模コーパスに対して任意のSQLを実行でき、ベクトル合成を自由に試せる唯一のツールだ
プロンプトと外部データセットを組み合わせるのは、今もっとも手軽で強力な探索チャネルだ
まるで「curl | bash」のように素早く実験できる
「state-of-the-art」な研究ツールだと言っていたが、具体的に何がそんなに最先端なのか気になる
たとえばGemmaモデルも競合より性能が低かったが「state-of-the-art」と呼ばれていた
Juiceroも発売当時は最先端だったが、結局は手で絞るほうがよかった
自分は現在自律型の学術研究システムを開発中で、このプロジェクトを統合する予定だ
今はEdison Scientific APIとカスタムプロンプトを使っているが、オープンソース化の計画があるのか気になる
関連プロジェクト: gia-agentic-short
5,000万ドルを確保できれば すぐ公開できると思う