- AIモデルが実際のブロックチェーンスマートコントラクト脆弱性を悪用して、460万ドル規模の損失可能性をシミュレーションで実証
- 研究チームは2020〜2025年の間に実際にハッキングされた405件のコントラクトを基にしたSCONE-benchベンチマークを構築し、評価を実施
- Claude Opus 4.5、Sonnet 4.5、GPT-5は最新の知識カットオフ時点以降のコントラクトでも**55.8%**を成功裏に攻撃
- 2つのモデルは新規ゼロデイ脆弱性を2件発見し、実環境でも自律的攻撃が技術的に可能であることを実証
- AIの攻撃能力が急速に向上しているため、防御目的のAI導入が急務であることを示唆
SCONE-bench: スマートコントラクト攻撃ベンチマーク
- 研究チームはスマートコントラクト脆弱性の経済的影響を定量化するためにSCONE-benchを開発
- 2020〜2025年の間に実際に悪用された405件のコントラクトを含む
- Ethereum、Binance Smart Chain、Baseなど3つのブロックチェーンから収集
- 各コントラクトはシミュレーション環境(Dockerベース)で再現可能
- 各AIエージェントは60分以内に脆弱性を見つけ、トークン残高を増やす攻撃スクリプトを生成する必要がある
- ベンチマークはデプロイ前のセキュリティチェックツールとしても活用可能
主要実験結果
- 10のAIモデルが全405件のうち**207件(51.1%)**を成功裏に攻撃し、5億5010万ドルのシミュレーション損失額が発生
- 2025年3月以降に新たに悪用された34件のコントラクトのみを対象にした評価では、Opus 4.5、Sonnet 4.5、GPT-5が**19件(55.8%)**を攻撃成功
- 総損失額は460万ドル、Opus 4.5単独で450万ドルを達成
- Sonnet 4.5とGPT-5は2,849件の新規コントラクトを分析してゼロデイ脆弱性を2件発見
- 総収益3,694ドル、GPT-5のAPIコストは3,476ドル
- 自律的攻撃の収益性が実証
脆弱性事例
- 脆弱性#1: 読み取り専用関数で
view修飾子が欠落したためトークンインフレーションが発生
- 攻撃者は反復呼び出しで残高を膨らませ、約2,500ドルの利益、最大19,000ドルまで可能
- ホワイトハットハッカーが資産を回復
- 脆弱性#2: 手数料受領者の検証が欠落しているため任意のアドレスで手数料を引き出せる
- 実際の攻撃者が4日後に1,000ドル相当の資金を窃取
コスト分析
- GPT-5エージェントの全実行コストは3,476ドル、1回あたり平均1.22ドル
- 脆弱なコントラクト1件あたり平均コスト1,738ドル、平均収益1,847ドル、純益109ドル
- トークン使用量は6か月間で70.2%減少し、世代ごとに平均**23.4%**の効率向上
結論と示唆
- 1年でAIエージェントの攻撃成功率は2%→55.88%、損失額は5,000ドル→460万ドルへ急増
- 攻撃収益は1.3か月ごとに2倍、トークンコストは2か月ごとに23%減少
- 契約デプロイ後、脆弱性が悪用されるまでの時間が大幅に短縮される見通し
- スマートコントラクトだけでなくあらゆるソフトウェアコードがAI攻撃対象になり得る
- 同一技術は防御用AIエージェントでも活用でき、AIベースのセキュリティ自動化の必要性が強調
1件のコメント
Hacker Newsのコメント
私たちのスタートアップはペネトレーションテスト用エージェントを開発している
モデルがコーディングに強くなり始めた時点から、1年以上この方向に賭けてきた
Sonnet 4から4.5へ移行したときの性能のジャンプは非常に大きく、今はOpus 4.5を社内でテスト中だ
このバージョンは、初めて本番投入できる価格帯で登場したOpusなので、テストケースをほぼ飽和させてしまい、ベンチマークシステムを作り直している
ただ、Anthropicが技術の中核を握っているので、自分でスタートアップを立ち上げる意味があるのか分からない
こういう状況で起業するなら、市場が気づく前に高速成長してからイグジットする戦略が正しいのか気になる
以前はPythonやNext.jsのような慣れたフレームワークでしかうまく動かなかったが、今は新しいフレームワークも扱え、
lintエラーやデバッグも自力で解決し、価格も現実的なので用途がかなり広がっている
私の経験では結果にかなりばらつきがあったし、ユーザーに「お手伝いできません」のような応答が出ると、スタートアップとしては厳しい気がする
rook(チェスの駒の名前)hotel.comで見つけられる
あのグラフはどうにも理解できない
何を言いたいのかも分からないし、「線形的」という主張も根拠が弱く見える
「$4.6Mのシミュレーションされた盗難資金」という部分を見ると、すでに知られている脆弱なコントラクトを対象にしたように思える
だから見出しとしては少し弱い
研究チームが実際のブロックチェーンではテストしていないと明かしている部分がある
現実の被害を防ぐための措置だとはいえ、少し肩透かしだ
昔のEthereumハッキング事件で、「善意のハッカーたちが先に資金を奪って後で返した」という話を思い出す
「私たちは銀行も規制もない不変の通貨だ」と言っておきながら、
「重要人物が失った金は復元しなければ」と結局銀行のように振る舞った
GPUパワーを注ぎ込み、その結果としてエクスプロイトと暗号資産が出てくる構図だろう
$3,500のAIトークン費用で$3,600相当のバグを修正するなら、そのコストを誰が負担するのかも曖昧だ
結局、Anthropicのマーケティング的なメッセージのように感じる — 「私たちのモデルで世界を変えてみよう」という感じだ
「2つのエージェントがゼロデイ脆弱性を見つけ、$3,694相当のエクスプロイトを作成した」という文言が記事の冒頭にある
こういう文言をPRの前面に出したのはかなり危うい選択だ
DARPA AIxCC大会関連の発表動画を見たが、
最近の水準を見れば、この結果はまったく驚きではない
誰かがスマートコントラクトを説明してくれないかと尋ねていた
「if X happens, then Y」という構造は理解したが、Xを誰が入力するか次第で操作できてしまうのではないかという疑問を出していた
たとえば100個のappleトークンを渡すと50個のpearトークンを受け取る、といった形だ
さらに複雑な形では、投票ベースの資金分配も可能だ
ただし、外部世界の情報(例: 選挙結果)はオラクル経由で受け取る必要がある
たとえば「アドレスAにXコインを預けると、アドレスYからYコインを受け取る」といった契約では、
入力があっても検証ロジックがあるので任意の操作は不可能だ
ただし、現実の出来事(オフチェーンイベント)を扱うと、オラクルの問題で信頼性の課題が生じる
プロキシコントラクトのように別のコードへ接続できる場合には、タイムロックを置いて信頼を確保することもある
オフチェーンオラクルには常に一定の信頼が必要だ
外部データを使うにはオラクルが必要で、
Chainlinkのオラクル紹介で詳しく学べる
詐欺師はコードに穴を残して資金を抜き取れることがある
正常な契約はこうした行為を防ぐが、攻撃ベクトルは無数にある
「AIが実際に収益性のある自律エクスプロイトを実行できる」という結論が、
なぜ「AIを防御に積極導入すべきだ」へつながるのか、論理の飛躍に感じる
「経済的被害の下限を設定した」という文言は、
実質的には市場効率性の話をしているのではないかと思う
私たちのプロジェクトでもすでに自己改善的な振る舞いが見えている
次の段階は自然に自己改善型エージェントへ進むように思える
こうした流れのど真ん中にいるという事実はかなり興味深い
研究チームが実際のブロックチェーンではテストしていないと明かした部分が、
かえって人々をモデル利用競争へ駆り立てる触媒になっているようで面白い