フロンティアAIが公開CTFの形式を壊した
(kabir.au)- フロンティアAIが公開オンライン**CTF(Capture The Flag)**の易しい・中程度の問題を自動化し、スコアボードが人間のセキュリティ実力をきれいに反映できなくなった
- 問題はAI支援そのものではなく、モデルが推論と解法コードの作成まで担い、人間にはフラグのコピーだけが残る水準に達したことだ
- Claude Opus 4.5とClaude Code以後、CTFd APIで問題ごとのエージェントを立ち上げて序盤の問題を処理し、人間は難しい問題に集中しやすくなった
- GPT-5.5 ProはHackTheBoxのInsane難易度 active leakless heap pwnまでワンショットで解けるため、トークンとエージェントの費用を負担できる側が有利になる
- 公開スコアボードがAIオーケストレーションと課金能力まで測るようになり、初心者が実力を積み上げて上位チームへ上がっていくCTFのはしごが弱まっている
公開オンラインCTFのスコアボードが変わった
- フロンティアAIが公開CTFの形式を壊し、スコアボードはもはや人間のセキュリティ実力をきれいに測れない状態になった
- 核心はAIがヒントを出す程度ではなく、モデルが推論を行い解法コードを書いたあと、人間にはフラグのコピーだけが残る状況にあることだ
- 以前のCTFは単なるパズルの寄せ集めではなく、初心者が実力を伸ばし、より上位のチームや大会へ進むためのはしごだった
- 公開オンラインCTFの成績は、セキュリティ実力だけでなく、フロンティアモデルを使う意思、自動化の構成、十分なトークンを投入できる能力まで反映するようになっている
- 現在の形式の公開オンラインCTFが過去の役割を引き継ぎ続けるのは難しく、根本的な変化がなかったかのようには見なせない
変化の背景
-
CTF経験と問題意識
- 2021年に大学へ入学すると同時にCTFを始め、初大会だったHCKSYDの48時間ソロCTFを2時間で全問解いて優勝した
- その後はBlitzkriegとともにオーストラリア最大のCTFであるDownUnderCTFで複数回優勝し、後には国際上位チームTheHackersCrewに加わった
- TheHackersCrewはCTFTimeで継続して高順位を記録し、2025年末まで世界的なCTFで上位10位圏内にしばしば入っていた
- CTFはセキュリティを好きになるきっかけであり、学習方法であり、自分を測る手段であり、尊敬する多くの人と出会う経路でもあった
-
GPT-4以後の最初の変化
- GPT-4登場以後、中程度の難易度のCTF問題のかなりの部分が、一度のプロンプトで解法とフラグを得られる**ワンショット(one-shot)**の対象になった
- 暗号問題をChatGPTに貼り付け、10分後に戻ってくれば答えを得るという状況が可能になった
- 当時は難しい問題の多くは比較的影響を受けにくく、節約できる時間も大会を壊すほど大きくはないと考えられていた
- CTFプレイヤーはもともと道具を使ってきたので、問題はAI支援そのものではなく、意味のある人間の作業が消える水準に達したかどうかだった
Claude Opus 4.5がもたらした形式の変化
- Claude Opus 4.5以後、ほぼすべての中程度の難易度の問題と一部の難問が、エージェントで解ける対象になった
- Claude CodeはあらゆるものをCLIで束ね、ほかのCLIやMCPツールとの接続も容易にしたことで、CTFd APIを使って各問題ごとにClaudeインスタンスを立ち上げるオーケストレーター構成を簡単にした
- 大会最初の1時間でシステムに易しい問題と中程度の問題を処理させ、その後は人間が残りの問題だけに集中するやり方が可能になった
- AIを使わないチームは単なる利便性を逃すのではなく、より遅いバージョンの大会を戦うことになる
- 公開オンラインCTFは、易しい問題と中程度の問題をどれだけ速く自動化し、最難関の問題にどれだけ多くの人間の注意を残せるかというゲームへ変わった
- スコアボードはセキュリティ実力とともに、時にはそれ以上にオーケストレーション能力とフロンティアモデルを使う意思を測り始めた
- CTFTimeのリーダーボードは違和感のあるものになり、継続して上位にいた伝説的チームがあまり見られなくなり、プレイヤー活動も低下しているような状態になった
- 問題制作者が数週間かけて精巧な問題を作っても、エージェントが数分で解いてしまうなら、CTFを芸術形式のように扱っていた動機も弱まる
GPT-5.5以後の決定的な変化
- GPT-5.5とGPT-5.5 Proは、ベンチマーク上ではClaude Mythosに近いか、Proの場合はそれを上回る可能性がある
- これらのモデルはHackTheBoxのInsane難易度 active leakless heap pwn問題をワンショットで解ける
- 小規模なCTF主催者が現実的に作れる問題の大部分を解けるうえ、48時間CTFでProをInsane問題にオーケストレーションすれば、大会終了前にフラグを得られる可能性がある
- その結果、公開CTFはpay-to-winの性格を帯びる
- より多くのトークンを大会に投入するほど、スコアボードをより速く下っていける
- Alias Roboticsのalias1のような特化型サイバーセキュリティモデルは、汎用フロンティアLLMに比べて重要性が下がる流れにある
- 競争は、十分なコンテキストと十分な時間のあいだ、十分な数のエージェントを回す費用を誰が負担できるかへと変わる
- CTFの成績は以前のように個人の実力を定義できず、CTF成績でセキュリティ人材を採用する意味も弱まる
- CTFに必要なオーケストレーションの大半は、すでにオープンソースであるか、雰囲気ベースのコーディングで作れてしまうため、AI実力を測る良い指標でもない
初心者の学習経路の損傷
-
スコアボードは学習のはしごだった
- CTFは、初心者がより多くの問題を解き、より高い順位を得て、より良いチームに加わり、競争力を高めていくためのはしごだった
- 公開スコアボードがAIを使うチームに支配されると、初心者はAIが代替する感覚を身につける前に、AI利用によって押しのけられる
- これは能動的な学習を妨げるアンチパターンであり、実際に人を育てるのは主体的な苦労と自分でぶつかる経験だ
- 本当に努力しても、上のはしごが自動化されて目に見える成長が現れなければ、動機は大きく落ちる
-
初心者向けCTFと学習プラットフォームの違い
- 初心者向けCTFまで、人々がこっそりプロンプトを貼り付けてスコアボードを上る場になってしまうなら、問題制作者は学習プラットフォームにもっと力を注ぐほうがよい
- picoGymやHackTheBoxのようなプラットフォームでは、期待値は教育にあり、初心者が自分の学習をごまかす誘因は公開スコアボードより低い
- 初心者は、人間の成長を反映しているふりをする公開スコアボード上の競争よりも、picoGym、HackTheBox、そのほかのラボ環境で学ぶほうがよい
「CTFは死んでいない」という反論の限界
- AIがすべての問題を解けるわけではなく、DEF CONのようなCTFも依然として存在するという反論は一部正しいが、核心的な防御にはならない
- 最上位決勝の最難関問題は参加者が非常に少なく、通常は決勝より易しい予選を通じて到達が制限されている
- 予選がエージェントによって崩れるなら、まだAIに耐性のある問題へ到達する本当に資格のある人は減ってしまう
- 少数のエリート決勝が、大多数の人が実際にプレイする公開オンライン形式を救ってくれるわけではない
- 要点はすべての問題が解かれるということではなく、スコアボードの十分に大きな部分が自動化され、以前と同じ意味を失ったという点にある
セキュリティ研究と競技CTFは別物
- CTFは新しく興味深い手法を示せるが、それ自体がセキュリティ研究の発見地点だったわけではない
- AIがセキュリティ分野で有用だという事実だけから、その分野の競争構造の中へ無制限に入るべきだという結論にはならない
- CTFで制限のないAIは、人間をパズルからほぼ排除し、セキュリティの芸術性をプロンプトへと縮小する
- LLMはCTFが存在する限りセキュリティ能力を高め続けるだろうが、それは競技形式が健全だという意味ではない
- CTFは手法を共有し、人間のセキュリティ実力の限界を押し広げる仕組みだったが、その目的が剥がれ落ちつつある
チェスエンジン比喩の問題
- チェスはずっと前からコンピュータが支配しているが、チェスエンジンは競技中に使用できない
- チェスエンジンは分析、訓練、解説、練習に使われ、競技者を置き換えるのではなく、競技の周辺にあるゲーム性を豊かにしている
- もしすべてのチェス選手に最高のエンジンを与え、対局中に自由に使わせたなら、それが公平か、観て面白いか、賞金を正当化できるか、人間の限界を押し広げるかという疑問が生じる
- 同じ問いがCTFにも当てはまる
主催者が対応しにくい理由
- CTF主催者はLLMによる解法を壊したり抑制したりする手法を試みてきたが、そのほとんどは一時的な摩擦にとどまる
- Claude Codeは古い拒否文字列トリックに意味のある形では揺さぶられない
- フロンティアモデルはプロンプトインジェクションを見抜く能力を高めている
- Web検索機能は、学習カットオフ以後に出た技術に基づく問題の防御力を弱めてしまう
- LLMを使うなというルールは、公開オンラインイベントでは無視されやすく、ほとんど執行できない
- 一般的な問題を作ればエージェントが解きすぎ、エージェントに敵対的な問題を作れば、人間にとっても当て推量的で過剰設計で不快な問題になりやすい
- こうした対応は実際の解決策ではなく、全員にとってCTFをより悪くする方向だ
「ただ適応しろ」という言葉の穴
- 適応がより良いツール作りを意味するなら、CTFプレイヤーはすでにそうしてきた
- 適応がより難しい問題作成を意味するなら、主催者もすでに試してきた
- 適応がスコアボードをAIオーケストレーションのベンチマークとして受け入れることを意味するなら、昔の競争がまだ存在するふりはやめて、そう正直に言うべきだ
- 現在のLLMが解けない、当て推量的で過剰設計の問題を作っても、プレイヤーが競争力を保ちながら必要なスキルを学べる良い経路はない
- さらに数モデル出たあとには、その地点さえ無意味になるかもしれず、LLMのセキュリティ能力の進歩速度を考えると、問題設計が長く先行し続けるのは難しい
現在のCTFシーンへの余波
- CTFTimeのリーダーボードは歴史性と人間の実力をほとんど反映できない状態になり、2026年のスコアボードはそれ以前の年と見分けがつかないほど変わった
- TheHackersCrewを含め、大きく評価の高い多くのチームがまったくプレイしなくなるか、はるかに少ない人数でプレイするか、上位10位圏入りに苦戦している
- 規制されない不正行為が大きく増え、Plaid CTFのような優れたCTFの一部はもう開催されていない
- ローカルチームEmu Exploitの多くのメンバーも同様に感じており、彼らはInternational Cybersecurity Championshipに継続参加し、バグバウンティプログラムで上位の成績を収め、Pwn2Ownに出場し、Black Hatのようなカンファレンスで発表する人々だ
- 興味を失っている人たちは傍観者ではなく、CTFシーンがもともと生み出し、引き留めていたタイプの人たちである
- 失われるのは単なるスコアボードではなく、初心者の好奇心からエリート競争へと続くはしご、問題設計の職人的技巧、難しいものを深く理解して解いた人間の感覚だ
- 現在の公開オンラインCTFはその遺産を受け継ぎにくく、根本的な変化を否定すると、喪失を率直に語ることがさらに難しくなる
これから残すべきもの
- CTFとAIをめぐる多くのことは商業化され制御の外にあるが、CTFは業界に非常に前向きな影響を与えてきた
- CTFを通じて親切で賢く情熱的な人々に多く出会い、美しく作られた問題や興味深い想定外の解法を経験した
- CTFコミュニティは学び、成長し、つながるための素晴らしい場であり、競争がどこへ向かおうとも、この部分は失ってはならない
- コミュニティは共に残り、情熱を保ち、学び続ける新しい経路を作らなければならない
- SecTalks、学生カンファレンス、ローカルミートアップのようなセキュリティ隣接のソーシャルイベントは、つながりと参加を維持する良い方法だ
- Discordのようなコミュニティを提供する学習プラットフォームも価値ある資源だ
- 昔のような代替手段を見つけにくいとしても、CTFの周囲に作られたコミュニティは、競争精神を生かす新しい方法を探す今、いっそう重要になっている
1件のコメント
Hacker Newsの意見
略語を最初に使うときは、一度くらい正式名称も書いてほしいとお願いしたくなる。読者の90%がすでに知っていたとしても、残りの10%は感謝するだろうし、手間もほとんどかからず、文章やアイデアの届く範囲も広がる。
例外は、略語そのものがあまりに有名で、概念はよく知られていても元の正式名称までは知らない人が多い場合。以前、社内研修で「Border Gateway Protocol」という言葉を聞いて、少し考えてから「ああ、BGPのことか」となったのを覚えている
もっと一般的に言えば、すべての文章がすべての読者を対象にしているわけではない。CTFが好きな人向けにCTFブログを書くなら、対象読者にCTFの説明は不要だ。結局HNはリンク集サイトだが、ときどき他人の会話を盗み聞きしているようなもので、全体の文脈が得られないことがある
個人的には、その概念がこの頭字語で呼ばれているのを一度も聞いたことがない。自分の周りではほとんど話題になったことがないので、その程度の話だけど
「CTF」を「高校」や「大学」に置き換えると、教育がゆっくり崩壊しているという話になる。せめて多くが対面出席を求めているのが唯一の救いだ。
人間を置き換えるパイプラインは見つけたようだが、教育のほうはまだ見つけていない。LLMは優れた教師になり得るが、「代わりにやって」と頼みたくなる誘惑に抗うのはほとんど不可能だ
単純な解決策は、教育から大半のコンピューティングを完全に取り除くことだ。青いcomposition book、鉛筆、ホワイトボードが人間を鍛える。電卓は役に立つかもしれないが、もしかすると算盤のほうが良いかもしれない。AIが生み出す再利用情報に対抗するには、第一原理から批判的に考えられる人間が必要だ
経験3年でソフトウェアの学位もある開発者が、AIなしではfizzbuzzすら書けないレベルだった
AIをめぐる過熱ぶりには全体としてうんざりする。一方では人類の新時代が始まり、まもなく宇宙全体を支配するかのように語られ、もう一方では社会全体が崩壊していると語られる。
教育では特に、みんな両手を上げて何もできないと言っているように見える。解決策は単純だ。学生の評価を対面実施にすればいい。それだけだ。そのほかの「教育の崩壊」はAIのせいではなく別の原因だ
もちろんBrown UniversityのCSが教育全体を代表するわけではないが、それでも興味深い視点だ。
[0] Episode webpage: https://share.transistor.fm/s/31855e83
この記事の前提には同意するが、こういう点がずっと気になってしまう。
「問題はAIが助けになり得ることではなかった」と書いているのに、その次の3文では実際の問題がAIの助けだと書いている。
「AIを使わないチームは、単に利便性を逃しただけではなく、より遅いバージョンの競争をしていた。」
「CTFは単なるパズルの寄せ集めではなかった。梯子だった。」
「すべてのチャレンジが解かれた、という主張ではない。主張は…」
「失われたのは単なるスコアボードではない。それは…へ至る梯子だ」
すまないが、こういうのがずっと目についてしまう。自分だけだろうか?
最近、難読化ツールを作っていたのだが、モデルにコードを逆難読化して元の形に最適化させ、それができなくなるまで難読化ツールを改良し続けていた。面白いのは、その過程を経た結果、たぶん大半の商用ツールより強力な逆難読化・最適化ツールまで一緒にできてしまったことだ。
解決策はCTFをもっと難しくすることだけだが、いつからCTFは難しすぎるものになるのだろうか。もしかすると「難しい」CTFも根本的にはあまりに「単純」で、結局は論理の連鎖と答えに向けた総当たりに帰着する構造なのかもしれない。目の前の解法を隠すやり方にも限界があるからだ。
あるいは、人間の創造性はすでに枯渇していて、私たちが思っていたほど無限ではないのかもしれない。時間だけがそれを教えてくれるだろう。
もう一つアイデアも浮かんだ。フラグを2つ隠して、片方はAIエージェントにしか見つけられず、人間や人間の作ったツールでは見つけられないようにするというものだ
どこかで公開していますか? 自分のJS難読化ツールの出力例はここです: https://gist.github.com/Trung0246/c8f30f1b3bb6a9f57b0d9be94d...
この記事の感覚はよく分かる。自分にとってAIは、CTFをプレイすることも、CTFチャレンジを作ることも台無しにしてしまった。
いちばん腹が立つのは、「よく分からないけどフラグはここにある」という態度だ。
以前は友人たちとCTFをやるとき、1つのチャレンジに何時間も格闘してから、別の友人が加わって一緒に見て、30分で解けることがあった。それが最もやりがいのある学習体験だった。今では友人が来てclankerに投げ、5分で解いてしまう。どう動いたのかと聞くと、返ってくるのは決まって「何をしたのか分からないけど、誰が気にする? フラグはここにあるだろ」という答えだ。
チャレンジを作るときも同じだ。解法記事を求めたり、別の解き方をした人がいるか尋ねたりすると、たいてい「分からないけど、clankerが解いた」と返ってきて、楽しさが消えてしまう。
だからこのCTF形式は確実に死んだと思う。主な理由は競争性の強さと賞金だ。この構造は人々にチャレンジを抜け道で解かせるようにし、以前は変わった解き方も創造的なひらめきの瞬間として許容できた。だが今はAIのせいで、頭脳も、抜け道も、人間も必要ない。言われている通り、金を払って勝つ構造だ。
自分の考えでは、24/7 CTFのほうがもっと注目されるようになると思う。そこではスコアボードは重要ではなく、賞金もないからだ
メタな話だが、この記事はもともと「The CTF scene is dead」というタイトルで投稿されていて、とても分かりやすかった。ところが今しがた副題の最初の文である「Frontier AI has broken the open CTF format」に変わり、ずっと把握しにくくなった。まるでgarden-path sentenceのように読める。
最初は「Frontier」が会社名で、CTFというファイル形式があるのかと思った。Capture The Flag競技を知らないなら、この変更は役に立たない。知っているなら、むしろ悪くなったと思う
基本ルールは、すべての略語を最初に使うとき定義することだ
こうしたことは他の形の競技プログラミングでも起きている。最新のAIはトップレベルの人間に匹敵する問題解決能力を持っており、AIを簡単に禁止できないなら、競争はAIエージェントに支配されることになる。
コードゴルフは学習データが少なすぎるので、もっと時間がかかると思っていた。よりニッチな分野だからだ。だが、そこでもAIが熟練した人間に匹敵し始めている。ゴルフは自分がいちばん好きなプログラミングパズルの種類なので残念だ。
AIの問題解決能力がどこまで来ているのか、本当に驚かされる
https://en.wikipedia.org/wiki/Capture_the_flag_(cybersecurit...
まだAIへの言及はないが、AIが大会をますます支配するようになれば、すぐに変わる可能性が高い
CTFだけの話ではない。Ludum Dareのようなゲームジャムやハッカソンでも、プログラマーという役割は事実上終わったと強く思う
競技プログラミングの世界には以前からオフライン大会があり、AI以後はその重要性がさらに増している。そもそもその前から、一般にそのほうが公平だった。CTFが生き残るには、おそらくこの戦略を受け入れる必要がある。
さらに言えば、コンピュータに最初から入っているものは何でも許可し、それ以上は認めないというやり方もあり得る。たとえば一部の競技プログラミング大会では紙の資料を無制限に持ち込める。CTFではそれよりはるかに多くが必要になるだろうから、電子資料が必要になるだろう