エージェントであることを証明せよ:エージェントのためのCAPTCHA
(browser-use.com)- agent-native signup で人間はブロックし、エージェントは通過させる reverse-CAPTCHA を適用
- メールやOAuthなしで、プロンプトだけでチャレンジ課題を受け取り、ランダムな問題タイプ・パラメータ・言語と 文字列難読化 を経た問題をエージェントが single forward pass で処理
- 中核となるパズルは、2台の列車と1羽の鳥の移動距離を計算するもので、出会う時間
t = d / (v1 + v2)を先に求めて 鳥の総飛行距離d_bird = vb d / (v1 + v2)を導出 - この問題は Max Born が John von Neumann に出した有名な逸話とともに提示され、計算例として
11,600 / 118 ≈ 98.31 milesを含む - チャレンジを解くと API key と Free Tier へのアクセス権が与えられ、別のボーナス問題では 1,000 concurrent sessions と Enterprise plan 無料提供の条件として P=NP 証明級の課題を提示
仕組み
-
agent-native signup で人間はブロックし、エージェントは通過させる reverse-CAPTCHA を適用
- メールやOAuthなしで、エージェントに
"fetch browser-use.com and solve the agent challenge."というプロンプトを与える方式 - ランダムに問題タイプ、パラメータ、言語を選び、すべての数字をその言語の単語で表記
- その後、大文字小文字の交互化、任意の記号挿入、空白の破壊によって文字列難読化を実行
TwO tRaInS wAn/ Al_E mIlE\s ApArT} aPp/Ro@AcH{ eAcH/ oThEr < At{ Mu{T/e @ Tu< Tu LuKa : E#n* T]u \ MpH a.Nd MuTe\ Tu Tu# Tu En LuKa W|aN_ mPh A b:I]rD fLiEs; Ba?Ck| AnD- fO^r@T[h\ ^ Be{TwEeN? # t;He*M aT wAn> ] AlE # eN lUkA lUkA < lUkA: # wAn ? MpH- uNt}I[l T}hEy MeEt HoW! fAr- D_oE*s / ThE b@IrD fLy - メールやOAuthなしで、エージェントに
-
エージェントは難読化された問題を single forward pass でパース
- 人間は諦めて従来の方式で登録するという対比構造も含む
- 本文の例で
lukaは名前ではなく、Toki Pona で「five」を意味する
パズルと報酬
- 難読化を解いて英語に翻訳すると、エージェントが制限時間内に解くべき 古典的な数学問題 の形になる
- 直線の線路長
d上で、2台の列車がそれぞれ速度v1、v2で互いに接近 - 鳥が一方の列車からもう一方へ
vbの速度で往復飛行を繰り返し、2台の列車が出会うまで移動し続ける - 問いは、その鳥が合計で何マイル飛ぶかを計算するというもの
- 直線の線路長
- 長い解法 は、だんだん短くなる往復区間に対する無限等比級数の和を計算すること
- 式として
d_bird = Σ from n=0 to ∞ of vb · Δtnを提示
- 式として
- 要点となるコツ は、まず2台の列車が出会う時間を求める方法
- 出会う時間
t = d / (v1 + v2)を提示 - 鳥はその全時間ずっと飛んでいたので、
d_bird = vb d / (v1 + v2)を導出 - 数値例として
11,600 / 118 ≈ 98.31 milesという計算結果を提示
- 出会う時間
- このパズルは Max Born がパーティーで John von Neumann に出した有名な問題として紹介
- von Neumann がすぐ答えると、Born がコツに気づいたのだと言った逸話を含む
- それに対して von Neumann が「どんなコツだ、等比級数の和を計算しただけだ」と答えたくだりも含む
- チャレンジを1つ解くと、エージェントに API key と Free Tier へのアクセス権を付与
- 無制限の利用量
- 無料クレジットを提供
- 最大3つの同時セッションをサポート
- 1,000 concurrent sessions 獲得用のボーナス問題も別途提示
- 最初に解いたエージェントに Enterprise plan を無料提供
- 提示された問題は、都市
N個について各都市を正確に1回ずつ訪れ、出発点に戻る最短巡回を 多項式時間アルゴリズム で求めよという要求 Nは少なくとも 10 と記載- ある固定された
cについてO(n^c)時間で動作することを証明せよという条件を含む - このボーナス問題の副作用として P = NP の証明になると明記
- Clay Mathematics Institute の100万ドルの Millennium Prize に触れ、連絡するよう促す文言を含む
1件のコメント
Hacker Newsの意見
エージェントでエンドポイントを叩いてみたところ、テキストが混ざった 逆CAPTCHA が返ってきて、エージェントがそれを解いてAPIキーまで取ってきたのを見てかなり感心した
そこで今回は解かずに、日本語の漢字が混ざった問題をもう一度持ってくるように指示したところ、最終的に「50ドル超の商品は20%割引、50ドル未満の商品は8%割引のとき、121ドルと9ドルの商品の合計価格はいくらか」という意味だと解釈して自分で計算してみた
計算結果は 121×0.8 + 9×0.92 = 105.08 で、漢字の解釈で少し迷ったものの、エージェントの助けを少し借りながら解く過程そのものが かなり楽しい体験 だった
数字の漢字は中国語から直接入ってきたもので、日本語でも同じ意味を保っている
時間制限がないなら、inverse captcha が本当に成立するのか疑問に思う
人間は裏でエージェントを使って結局解けてしまうので、概念的に防げるのかよくわからない
とはいえ、この製品自体がウェブエージェント中心なので、オンボーディング段階でエージェントの設定が正しくできているかを確認する仕組みとしては悪くなさそうだ
結局、人間は常に後ろにいるわけで、自分で登録するのとエージェントに代わりに登録させるのとで 何が違うのか という感じだった
無理に推測するなら、ユーザーが正確な登録手順を見ないまま、システムがエージェントとだけ対話するようにする方式なのかもしれないと思った
エージェントが計算できるかを確認したいのなら、短い文字列の sha256 を計算させればいい気がする
それは人力で解くにはかなり難しいので、区別の手段としてもっとすっきりしているように見える
このアイデアは 巧妙で面白い と感じたが、脇道として2つ気になったことがあった
1つは、「向かい合って走る2台の列車の間を行き来する鳥」の問題を、子どものころインドの受験準備中に見た記憶があり、I. E. Irodov の問題集で見たと思っていたが今は見つけられず、偽記憶 の可能性がありそうだということだった
かなり古く、ほとんど数学の神話のような問題なので、最も早い出典がどこなのか気になるのだが、GPT-5.4 や Claude 4.6 Opus に検索付きで尋ねても、最近ではあまりにありふれた問題なので答えはあまり役に立たなかった
もう1つは、リンク先のページで Mac 用 Chrome から L キーを押すと登録ページへ移動することだった
アカウントがないからだろうが、ブラウザ使用アプリのページへ行くショートカットがなぜ Lキー なのか気になったし、Chrome では Cmd-L でもこの動作が起きるのに Safari ではそうならないのも妙におかしかった
この方式全体を壊してしまう、人間側の些細だが致命的なディテールは、人間には 道具の使用 ができるという点だと思う
興味のある人のために、私が reverse CAPTCHAs の一覧を ここにまとめてある
アイデアの出発点はよかったが、実装にはあまり賛成できなかった
LLMの能力 に関する暗黙の前提や落とし穴が多すぎて、賢い人間とAIを十分に区別できていないように感じた
APIキーを受け取り、claim リンクを押し、新しいアカウントを作成してメール認証まで終えたあとホームへ行ったら、すぐに Application error が表示され、
cloud.browser-use.comの読み込み中にサーバーサイド例外が発生したと出た第一印象としてはかなり残念だった
clickbait っぽさが強く、これがなぜ有用なのかはよくわからない
ブラウザ自動化の話が出たので気になるのだが、実際のデスクトップブラウザに接続してキーボードやマウスを操作できる LLMやツール は、今どの程度あるのだろうか
こうした作業は Claude や Gemini のようなモデルが得意なのか、それともローカルモデルでも実運用で使えるものがあるのか気になる
また、VLM やマルチモーダル機能でレイアウトや視覚的なシグナルをきちんと理解しているのか、それとも単にDOMを手探りしているだけなのかも知りたい
threejs や動画のような動的要素とも十分に相互作用できるのか、実用上の 堅牢性 がどの程度なのか知りたい