フロンティアAIが公開CTFの形式を壊した

(kabir.au)

1 ポイント投稿者 GN⁺ 2026-05-17 | 1件のコメント | WhatsAppで共有

フロンティアAIが公開オンライン**CTF（Capture The Flag）**の易しい・中程度の問題を自動化し、スコアボードが人間のセキュリティ実力をきれいに反映できなくなった
問題はAI支援そのものではなく、モデルが推論と解法コードの作成まで担い、人間にはフラグのコピーだけが残る水準に達したことだ
Claude Opus 4.5とClaude Code以後、CTFd APIで問題ごとのエージェントを立ち上げて序盤の問題を処理し、人間は難しい問題に集中しやすくなった
GPT-5.5 ProはHackTheBoxのInsane難易度 active leakless heap pwnまでワンショットで解けるため、トークンとエージェントの費用を負担できる側が有利になる
公開スコアボードがAIオーケストレーションと課金能力まで測るようになり、初心者が実力を積み上げて上位チームへ上がっていくCTFのはしごが弱まっている

公開オンラインCTFのスコアボードが変わった

フロンティアAIが公開CTFの形式を壊し、スコアボードはもはや人間のセキュリティ実力をきれいに測れない状態になった
核心はAIがヒントを出す程度ではなく、モデルが推論を行い解法コードを書いたあと、人間にはフラグのコピーだけが残る状況にあることだ
以前のCTFは単なるパズルの寄せ集めではなく、初心者が実力を伸ばし、より上位のチームや大会へ進むためのはしごだった
公開オンラインCTFの成績は、セキュリティ実力だけでなく、フロンティアモデルを使う意思、自動化の構成、十分なトークンを投入できる能力まで反映するようになっている
現在の形式の公開オンラインCTFが過去の役割を引き継ぎ続けるのは難しく、根本的な変化がなかったかのようには見なせない

変化の背景

CTF経験と問題意識
- 2021年に大学へ入学すると同時にCTFを始め、初大会だったHCKSYDの48時間ソロCTFを2時間で全問解いて優勝した
- その後はBlitzkriegとともにオーストラリア最大のCTFであるDownUnderCTFで複数回優勝し、後には国際上位チームTheHackersCrewに加わった
- TheHackersCrewはCTFTimeで継続して高順位を記録し、2025年末まで世界的なCTFで上位10位圏内にしばしば入っていた
- CTFはセキュリティを好きになるきっかけであり、学習方法であり、自分を測る手段であり、尊敬する多くの人と出会う経路でもあった
GPT-4以後の最初の変化
- GPT-4登場以後、中程度の難易度のCTF問題のかなりの部分が、一度のプロンプトで解法とフラグを得られる**ワンショット（one-shot）**の対象になった
- 暗号問題をChatGPTに貼り付け、10分後に戻ってくれば答えを得るという状況が可能になった
- 当時は難しい問題の多くは比較的影響を受けにくく、節約できる時間も大会を壊すほど大きくはないと考えられていた
- CTFプレイヤーはもともと道具を使ってきたので、問題はAI支援そのものではなく、意味のある人間の作業が消える水準に達したかどうかだった

Claude Opus 4.5がもたらした形式の変化

Claude Opus 4.5以後、ほぼすべての中程度の難易度の問題と一部の難問が、エージェントで解ける対象になった
Claude CodeはあらゆるものをCLIで束ね、ほかのCLIやMCPツールとの接続も容易にしたことで、CTFd APIを使って各問題ごとにClaudeインスタンスを立ち上げるオーケストレーター構成を簡単にした
大会最初の1時間でシステムに易しい問題と中程度の問題を処理させ、その後は人間が残りの問題だけに集中するやり方が可能になった
AIを使わないチームは単なる利便性を逃すのではなく、より遅いバージョンの大会を戦うことになる
公開オンラインCTFは、易しい問題と中程度の問題をどれだけ速く自動化し、最難関の問題にどれだけ多くの人間の注意を残せるかというゲームへ変わった
スコアボードはセキュリティ実力とともに、時にはそれ以上にオーケストレーション能力とフロンティアモデルを使う意思を測り始めた
CTFTimeのリーダーボードは違和感のあるものになり、継続して上位にいた伝説的チームがあまり見られなくなり、プレイヤー活動も低下しているような状態になった
問題制作者が数週間かけて精巧な問題を作っても、エージェントが数分で解いてしまうなら、CTFを芸術形式のように扱っていた動機も弱まる

GPT-5.5以後の決定的な変化

GPT-5.5とGPT-5.5 Proは、ベンチマーク上ではClaude Mythosに近いか、Proの場合はそれを上回る可能性がある
これらのモデルはHackTheBoxのInsane難易度 active leakless heap pwn問題をワンショットで解ける
小規模なCTF主催者が現実的に作れる問題の大部分を解けるうえ、48時間CTFでProをInsane問題にオーケストレーションすれば、大会終了前にフラグを得られる可能性がある
その結果、公開CTFはpay-to-winの性格を帯びる
より多くのトークンを大会に投入するほど、スコアボードをより速く下っていける
Alias Roboticsのalias1のような特化型サイバーセキュリティモデルは、汎用フロンティアLLMに比べて重要性が下がる流れにある
競争は、十分なコンテキストと十分な時間のあいだ、十分な数のエージェントを回す費用を誰が負担できるかへと変わる
CTFの成績は以前のように個人の実力を定義できず、CTF成績でセキュリティ人材を採用する意味も弱まる
CTFに必要なオーケストレーションの大半は、すでにオープンソースであるか、雰囲気ベースのコーディングで作れてしまうため、AI実力を測る良い指標でもない

初心者の学習経路の損傷

スコアボードは学習のはしごだった
- CTFは、初心者がより多くの問題を解き、より高い順位を得て、より良いチームに加わり、競争力を高めていくためのはしごだった
- 公開スコアボードがAIを使うチームに支配されると、初心者はAIが代替する感覚を身につける前に、AI利用によって押しのけられる
- これは能動的な学習を妨げるアンチパターンであり、実際に人を育てるのは主体的な苦労と自分でぶつかる経験だ
- 本当に努力しても、上のはしごが自動化されて目に見える成長が現れなければ、動機は大きく落ちる
初心者向けCTFと学習プラットフォームの違い
- 初心者向けCTFまで、人々がこっそりプロンプトを貼り付けてスコアボードを上る場になってしまうなら、問題制作者は学習プラットフォームにもっと力を注ぐほうがよい
- picoGymやHackTheBoxのようなプラットフォームでは、期待値は教育にあり、初心者が自分の学習をごまかす誘因は公開スコアボードより低い
- 初心者は、人間の成長を反映しているふりをする公開スコアボード上の競争よりも、picoGym、HackTheBox、そのほかのラボ環境で学ぶほうがよい

「CTFは死んでいない」という反論の限界

AIがすべての問題を解けるわけではなく、DEF CONのようなCTFも依然として存在するという反論は一部正しいが、核心的な防御にはならない
最上位決勝の最難関問題は参加者が非常に少なく、通常は決勝より易しい予選を通じて到達が制限されている
予選がエージェントによって崩れるなら、まだAIに耐性のある問題へ到達する本当に資格のある人は減ってしまう
少数のエリート決勝が、大多数の人が実際にプレイする公開オンライン形式を救ってくれるわけではない
要点はすべての問題が解かれるということではなく、スコアボードの十分に大きな部分が自動化され、以前と同じ意味を失ったという点にある

セキュリティ研究と競技CTFは別物

CTFは新しく興味深い手法を示せるが、それ自体がセキュリティ研究の発見地点だったわけではない
AIがセキュリティ分野で有用だという事実だけから、その分野の競争構造の中へ無制限に入るべきだという結論にはならない
CTFで制限のないAIは、人間をパズルからほぼ排除し、セキュリティの芸術性をプロンプトへと縮小する
LLMはCTFが存在する限りセキュリティ能力を高め続けるだろうが、それは競技形式が健全だという意味ではない
CTFは手法を共有し、人間のセキュリティ実力の限界を押し広げる仕組みだったが、その目的が剥がれ落ちつつある

チェスエンジン比喩の問題

チェスはずっと前からコンピュータが支配しているが、チェスエンジンは競技中に使用できない
チェスエンジンは分析、訓練、解説、練習に使われ、競技者を置き換えるのではなく、競技の周辺にあるゲーム性を豊かにしている
もしすべてのチェス選手に最高のエンジンを与え、対局中に自由に使わせたなら、それが公平か、観て面白いか、賞金を正当化できるか、人間の限界を押し広げるかという疑問が生じる
同じ問いがCTFにも当てはまる

主催者が対応しにくい理由

CTF主催者はLLMによる解法を壊したり抑制したりする手法を試みてきたが、そのほとんどは一時的な摩擦にとどまる
Claude Codeは古い拒否文字列トリックに意味のある形では揺さぶられない
フロンティアモデルはプロンプトインジェクションを見抜く能力を高めている
Web検索機能は、学習カットオフ以後に出た技術に基づく問題の防御力を弱めてしまう
LLMを使うなというルールは、公開オンラインイベントでは無視されやすく、ほとんど執行できない
一般的な問題を作ればエージェントが解きすぎ、エージェントに敵対的な問題を作れば、人間にとっても当て推量的で過剰設計で不快な問題になりやすい
こうした対応は実際の解決策ではなく、全員にとってCTFをより悪くする方向だ

「ただ適応しろ」という言葉の穴

適応がより良いツール作りを意味するなら、CTFプレイヤーはすでにそうしてきた
適応がより難しい問題作成を意味するなら、主催者もすでに試してきた
適応がスコアボードをAIオーケストレーションのベンチマークとして受け入れることを意味するなら、昔の競争がまだ存在するふりはやめて、そう正直に言うべきだ
現在のLLMが解けない、当て推量的で過剰設計の問題を作っても、プレイヤーが競争力を保ちながら必要なスキルを学べる良い経路はない
さらに数モデル出たあとには、その地点さえ無意味になるかもしれず、LLMのセキュリティ能力の進歩速度を考えると、問題設計が長く先行し続けるのは難しい

現在のCTFシーンへの余波

CTFTimeのリーダーボードは歴史性と人間の実力をほとんど反映できない状態になり、2026年のスコアボードはそれ以前の年と見分けがつかないほど変わった
TheHackersCrewを含め、大きく評価の高い多くのチームがまったくプレイしなくなるか、はるかに少ない人数でプレイするか、上位10位圏入りに苦戦している
規制されない不正行為が大きく増え、Plaid CTFのような優れたCTFの一部はもう開催されていない
ローカルチームEmu Exploitの多くのメンバーも同様に感じており、彼らはInternational Cybersecurity Championshipに継続参加し、バグバウンティプログラムで上位の成績を収め、Pwn2Ownに出場し、Black Hatのようなカンファレンスで発表する人々だ
興味を失っている人たちは傍観者ではなく、CTFシーンがもともと生み出し、引き留めていたタイプの人たちである
失われるのは単なるスコアボードではなく、初心者の好奇心からエリート競争へと続くはしご、問題設計の職人的技巧、難しいものを深く理解して解いた人間の感覚だ
現在の公開オンラインCTFはその遺産を受け継ぎにくく、根本的な変化を否定すると、喪失を率直に語ることがさらに難しくなる

これから残すべきもの

CTFとAIをめぐる多くのことは商業化され制御の外にあるが、CTFは業界に非常に前向きな影響を与えてきた
CTFを通じて親切で賢く情熱的な人々に多く出会い、美しく作られた問題や興味深い想定外の解法を経験した
CTFコミュニティは学び、成長し、つながるための素晴らしい場であり、競争がどこへ向かおうとも、この部分は失ってはならない
コミュニティは共に残り、情熱を保ち、学び続ける新しい経路を作らなければならない
SecTalks、学生カンファレンス、ローカルミートアップのようなセキュリティ隣接のソーシャルイベントは、つながりと参加を維持する良い方法だ
Discordのようなコミュニティを提供する学習プラットフォームも価値ある資源だ
昔のような代替手段を見つけにくいとしても、CTFの周囲に作られたコミュニティは、競争精神を生かす新しい方法を探す今、いっそう重要になっている

1件のコメント

GN⁺ 2026-05-17

Hacker Newsの意見

略語を最初に使うときは、一度くらい正式名称も書いてほしいとお願いしたくなる。読者の90%がすでに知っていたとしても、残りの10%は感謝するだろうし、手間もほとんどかからず、文章やアイデアの届く範囲も広がる。
例外は、略語そのものがあまりに有名で、概念はよく知られていても元の正式名称までは知らない人が多い場合。以前、社内研修で「Border Gateway Protocol」という言葉を聞いて、少し考えてから「ああ、BGPのことか」となったのを覚えている
- どの略語のことを言っているのか気になる。CTFなら、BGPのように正式名称より略語そのもののほうが広く知られている部類だと思う。
  もっと一般的に言えば、すべての文章がすべての読者を対象にしているわけではない。CTFが好きな人向けにCTFブログを書くなら、対象読者にCTFの説明は不要だ。結局HNはリンク集サイトだが、ときどき他人の会話を盗み聞きしているようなもので、全体の文脈が得られないことがある
- 今いちばん上のコメントなので書いておくと、CTFはCapture The Flagの略。
  個人的には、その概念がこの頭字語で呼ばれているのを一度も聞いたことがない。自分の周りではほとんど話題になったことがないので、その程度の話だけど
- 多くの略語は、正式名称に展開しただけでは意味の説明にならないと思う。少し前にCIが何かを説明していたら、相手に何の略かと聞かれ、Continuous Integrationという言葉は、CIが実際に何なのか理解しようとしている人にはほとんど役に立たないのだと気づいた
「CTF」を「高校」や「大学」に置き換えると、教育がゆっくり崩壊しているという話になる。せめて多くが対面出席を求めているのが唯一の救いだ。
人間を置き換えるパイプラインは見つけたようだが、教育のほうはまだ見つけていない。LLMは優れた教師になり得るが、「代わりにやって」と頼みたくなる誘惑に抗うのはほとんど不可能だ
- この10年間で学んだことはすべて、コンピュータは人間の教育にまったく役立たないという方向を示している。人はペンと紙で書いたほうがよく記憶し、ホワイトボードと紙の本でよりよく学ぶ。
  単純な解決策は、教育から大半のコンピューティングを完全に取り除くことだ。青いcomposition book、鉛筆、ホワイトボードが人間を鍛える。電卓は役に立つかもしれないが、もしかすると算盤のほうが良いかもしれない。AIが生み出す再利用情報に対抗するには、第一原理から批判的に考えられる人間が必要だ
- ソフトウェア開発者の採用面接をしているが、不正を防ぐために一次を対面面接にした。AI以前に学んだ人と以後に学んだ人の差はものすごい。
  経験3年でソフトウェアの学位もある開発者が、AIなしではfizzbuzzすら書けないレベルだった
- 「Frontier AIが『高校』や『大学』という形式を壊した」みたいな話になるのか。
  AIをめぐる過熱ぶりには全体としてうんざりする。一方では人類の新時代が始まり、まもなく宇宙全体を支配するかのように語られ、もう一方では社会全体が崩壊していると語られる。
  教育では特に、みんな両手を上げて何もできないと言っているように見える。解決策は単純だ。学生の評価を対面実施にすればいい。それだけだ。そのほかの「教育の崩壊」はAIのせいではなく別の原因だ
- 自信満々に信頼できない情報を与える優れた教師ってこと？
- Oxide & FriendsポッドキャストでCS教育におけるAIを扱ったこのインタビュー[0]はかなり印象的だった。
  もちろんBrown UniversityのCSが教育全体を代表するわけではないが、それでも興味深い視点だ。
  [0] Episode webpage: https://share.transistor.fm/s/31855e83
この記事の前提には同意するが、こういう点がずっと気になってしまう。
「問題はAIが助けになり得ることではなかった」と書いているのに、その次の3文では実際の問題がAIの助けだと書いている。
「AIを使わないチームは、単に利便性を逃しただけではなく、より遅いバージョンの競争をしていた。」
「CTFは単なるパズルの寄せ集めではなかった。梯子だった。」
「すべてのチャレンジが解かれた、という主張ではない。主張は…」
「失われたのは単なるスコアボードではない。それは…へ至る梯子だ」
すまないが、こういうのがずっと目についてしまう。自分だけだろうか？
最近、難読化ツールを作っていたのだが、モデルにコードを逆難読化して元の形に最適化させ、それができなくなるまで難読化ツールを改良し続けていた。面白いのは、その過程を経た結果、たぶん大半の商用ツールより強力な逆難読化・最適化ツールまで一緒にできてしまったことだ。
解決策はCTFをもっと難しくすることだけだが、いつからCTFは難しすぎるものになるのだろうか。もしかすると「難しい」CTFも根本的にはあまりに「単純」で、結局は論理の連鎖と答えに向けた総当たりに帰着する構造なのかもしれない。目の前の解法を隠すやり方にも限界があるからだ。
あるいは、人間の創造性はすでに枯渇していて、私たちが思っていたほど無限ではないのかもしれない。時間だけがそれを教えてくれるだろう。
もう一つアイデアも浮かんだ。フラグを2つ隠して、片方はAIエージェントにしか見つけられず、人間や人間の作ったツールでは見つけられないようにするというものだ
- 面白いですね。最近、自分もほぼ同じことをしていました。JS難読化ツールの限界をできるだけ押し広げるために、gpt/claudeに最終出力をひたすら逆難読化させ、さらにその逆難読化ツールをgptで破れるようにツールを改良していました。
  どこかで公開していますか？自分のJS難読化ツールの出力例はここです: https://gist.github.com/Trung0246/c8f30f1b3bb6a9f57b0d9be94d...
- 一部は幽体離脱を要求すればよくて、コンピュータにはそれができない。あるいは90年代がいつも想像していたように、VRミニゲームを入れるだけでもいいかもしれない
この記事の感覚はよく分かる。自分にとってAIは、CTFをプレイすることも、CTFチャレンジを作ることも台無しにしてしまった。
いちばん腹が立つのは、「よく分からないけどフラグはここにある」という態度だ。
以前は友人たちとCTFをやるとき、1つのチャレンジに何時間も格闘してから、別の友人が加わって一緒に見て、30分で解けることがあった。それが最もやりがいのある学習体験だった。今では友人が来てclankerに投げ、5分で解いてしまう。どう動いたのかと聞くと、返ってくるのは決まって「何をしたのか分からないけど、誰が気にする？フラグはここにあるだろ」という答えだ。
チャレンジを作るときも同じだ。解法記事を求めたり、別の解き方をした人がいるか尋ねたりすると、たいてい「分からないけど、clankerが解いた」と返ってきて、楽しさが消えてしまう。
だからこのCTF形式は確実に死んだと思う。主な理由は競争性の強さと賞金だ。この構造は人々にチャレンジを抜け道で解かせるようにし、以前は変わった解き方も創造的なひらめきの瞬間として許容できた。だが今はAIのせいで、頭脳も、抜け道も、人間も必要ない。言われている通り、金を払って勝つ構造だ。
自分の考えでは、24/7 CTFのほうがもっと注目されるようになると思う。そこではスコアボードは重要ではなく、賞金もないからだ
メタな話だが、この記事はもともと「The CTF scene is dead」というタイトルで投稿されていて、とても分かりやすかった。ところが今しがた副題の最初の文である「Frontier AI has broken the open CTF format」に変わり、ずっと把握しにくくなった。まるでgarden-path sentenceのように読める。
最初は「Frontier」が会社名で、CTFというファイル形式があるのかと思った。Capture The Flag競技を知らないなら、この変更は役に立たない。知っているなら、むしろ悪くなったと思う
- 役に立つか分からないが、自分には2つ目のタイトルのほうがずっと分かりやすく、釣りっぽさも少なく、情報量も多いように思える。混乱するという指摘には同意するが、frontierはこの分野でよく使われる用語なので、「frontier AI models have」と書けば解決するはずだ
- 同意する。理解するのに少し時間がかかった。「frontier models」をFrontier AIと表現しているのを初めて見たからだと思う。特にFが大文字なので会社名のように聞こえる
- 「Frontier Model」のFrontierは、2026年ならおそらく知っておくべき正当な語彙だ。著者が作ったり適当に選んだりした言葉ではなく、この分野で普通に使われる表現だ
- 記事のどこにもCTFの定義がなく、ここでの上位コメントも同様だ。だから読み飛ばした。
  基本ルールは、すべての略語を最初に使うとき定義することだ
- なぜ人はいつもスレッドを乗っ取ってタイトルの話をするのだろう？たいていの記事タイトルはひどい。普通にダウンボートして先に進めばいい
こうしたことは他の形の競技プログラミングでも起きている。最新のAIはトップレベルの人間に匹敵する問題解決能力を持っており、AIを簡単に禁止できないなら、競争はAIエージェントに支配されることになる。
コードゴルフは学習データが少なすぎるので、もっと時間がかかると思っていた。よりニッチな分野だからだ。だが、そこでもAIが熟練した人間に匹敵し始めている。ゴルフは自分がいちばん好きなプログラミングパズルの種類なので残念だ。
AIの問題解決能力がどこまで来ているのか、本当に驚かされる
https://en.wikipedia.org/wiki/Capture_the_flag_(cybersecurit...
まだAIへの言及はないが、AIが大会をますます支配するようになれば、すぐに変わる可能性が高い
- CTFでAIを使うのは、100ヤード走が上手くなりたいからといって自動車を使うようなものだ
CTFだけの話ではない。Ludum Dareのようなゲームジャムやハッカソンでも、プログラマーという役割は事実上終わったと強く思う
競技プログラミングの世界には以前からオフライン大会があり、AI以後はその重要性がさらに増している。そもそもその前から、一般にそのほうが公平だった。CTFが生き残るには、おそらくこの戦略を受け入れる必要がある。
さらに言えば、コンピュータに最初から入っているものは何でも許可し、それ以上は認めないというやり方もあり得る。たとえば一部の競技プログラミング大会では紙の資料を無制限に持ち込める。CTFではそれよりはるかに多くが必要になるだろうから、電子資料が必要になるだろう

フロンティアAIが公開CTFの形式を壊した

公開オンラインCTFのスコアボードが変わった

変化の背景

CTF経験と問題意識

GPT-4以後の最初の変化

Claude Opus 4.5がもたらした形式の変化

GPT-5.5以後の決定的な変化

初心者の学習経路の損傷

スコアボードは学習のはしごだった

初心者向けCTFと学習プラットフォームの違い

「CTFは死んでいない」という反論の限界

セキュリティ研究と競技CTFは別物

チェスエンジン比喩の問題

主催者が対応しにくい理由

「ただ適応しろ」という言葉の穴

現在のCTFシーンへの余波

これから残すべきもの

関連記事

1件のコメント

Hacker Newsの意見