OpenAI o3、偽造されたEXIFデータも無視してGeoguessrマスターに勝利
(sampatt.com)- 最新のo3モデルがGeoguessr Master Iランクのプレイヤーに勝利
- Master Iランクは上位約1〜2%相当の実力。最上位はChampionで0.1〜0.5%
- 画像に偽造されたEXIF GPSデータを入れても、モデルは視覚的な手がかりだけで実際の位置を正確に推定
- **建物、地形、道路線、言語、標識などの細かな特徴を総合的に分析するChain of Thought(COT)**方式で推論を実行
- 一部のラウンドではWeb検索を活用したが、再試験の結果、検索なしでも同じ正解に到達可能
- 平均推論時間はo3のほうが人間より長いものの、精度はむしろ優れている水準
AI vs 人間: Geoguessr対決の始まり
- 筆者はGeoguessr Master Iランクのプレイヤーで、実際のゲーム方式に近い形で5つのラウンドをAIと対戦
- 各ラウンドではStreet View画像2枚のみが提供され、メタデータなしで位置を推定
- 採点は通常のGeoguessrと同じく、ラウンドごとに最大5,000点、合計25,000点満点基準
ラウンド別結果の要約
- 第1ラウンド(ブルガリア) : 人間がわずかに近い位置を当てて勝利したが、点差は約100点にすぎなかった
- 第2ラウンド(オーストリア) : o3がタクシーのドメインアドレスを検索して実際の都市名を把握し、ほぼ完璧に正解位置を当てて5,000点に近いスコアを獲得
- 第3ラウンド(アイルランド) : どちらも優れた分析を見せ、o3が道路線と石灰岩地形などを根拠にBurren地域を正確に推定し、わずかに勝利
- 第4ラウンド(コロンビア) : o3が道路標示、ナンバープレート、店舗看板、地形などをもとに人間より正確に推定し、Web検索なしでも優れた成果を示した
- 第5ラウンド(スロバキア) : 人間がわずかに近い位置を当てて勝利したが、総合スコア差を覆すことはできなかった
このようにo3は全5か国をすべて正確に識別し、2つのラウンドでは人間より数百キロメートルも正確に当てるなど、高い精度を示した。
EXIF改ざん実験: AIはだまされなかった
- テストのため、実際の位置と無関係なGPS座標を含むEXIFデータを挿入した画像を使ったが、o3はその情報が実際の画像内容と一致しないことを認識して無視
- EXIF情報をテキストで与えても、写真内の環境を根拠にまったく別の位置を正確に推定
- AIが単にメタデータに依存しているのではなく、画像内容を深く分析していることを証明
人間とAIの違い
- o3は各ラウンド平均2〜6分の推論時間を要した一方、人間プレイヤーは1〜2分以内にほとんどの推測を完了
- AIは時に広告板など重要度の低い要素に時間を使う一方、人間は重要な手がかりを素早く認識して優先順位を付ける
- しかしo3は道路標識、ナンバープレート、建築様式、地形、植生など多様な視覚情報を精緻に組み合わせて高い精度を示した
結論
- o3は単にEXIFや検索だけを使うごまかしではなく、本物の視覚分析能力に基づいて正答を導出
- Geoguessr Master Iランク以上に近いプレイを見せた
- 人間は依然として速度と直感で優位を保つが、精度の面ではすでにAIが脅威となる水準
- これは単なる技術デモを超えて、実用的に活用可能な高性能視覚AIの現状を示す事例である
1件のコメント
Hacker Newsの意見
車両に「http://taxilinder.at」というステッカーが貼られている。ウェブ検索により、Taxi/ Linder GmbHがオーストリアのドルンビルンにあることが分かる
投稿者は、人々がこの話題を興味深いと感じていることをうれしく思っている
GeoGuessrではマスターレベルだ。このレベルでは確かに何をすべきか分かっている必要があるが、タイトルから受ける印象ほど高くはない
o3は画像データを含むマルチモーダルデータで訓練されていると理解している。訓練データに正確な位置と特徴を持つ画像が含まれていると仮定するのは不合理ではない
GeoGuessrはさておき、いつかこの技術が子どもたちを救う助けになることを願っている。たとえばFBIのECAPに役立つかもしれない
前の投稿でのコメント:
今週o3で少し遊んでみようと思っていたが、興味深いことに、より多くのパターンマッチングを試みていた。たとえば、ヨーロッパやアメリカの写真は簡単に推論できる
驚きだ。AIには前向きだが、ここでは人間が勝つと思っていた。「それは本当の推論ではない」というゴールポスト移動が起きると予想している
個人的には、LLMの応用としてはあまり印象的ではないものの一つだと思う。すでにあらゆる植物や道路標識などを知っている。従来型のニューラルネットワークでも、ここではうまくやれると想像できる
OSINT(Bellingcat/Trace an object)風の作業ではゲームチェンジャーになるだろう。すでにそうなっているのか気になる