6 ポイント 投稿者 GN⁺ 2025-04-30 | 1件のコメント | WhatsAppで共有
  • 最新のo3モデルがGeoguessr Master Iランクのプレイヤーに勝利
    • Master Iランクは上位約1〜2%相当の実力。最上位はChampionで0.1〜0.5%
  • 画像に偽造されたEXIF GPSデータを入れても、モデルは視覚的な手がかりだけで実際の位置を正確に推定
  • **建物、地形、道路線、言語、標識などの細かな特徴を総合的に分析するChain of Thought(COT)**方式で推論を実行
  • 一部のラウンドではWeb検索を活用したが、再試験の結果、検索なしでも同じ正解に到達可能
  • 平均推論時間はo3のほうが人間より長いものの、精度はむしろ優れている水準

AI vs 人間: Geoguessr対決の始まり

  • 筆者はGeoguessr Master Iランクのプレイヤーで、実際のゲーム方式に近い形で5つのラウンドをAIと対戦
  • 各ラウンドではStreet View画像2枚のみが提供され、メタデータなしで位置を推定
  • 採点は通常のGeoguessrと同じく、ラウンドごとに最大5,000点、合計25,000点満点基準

ラウンド別結果の要約

  • 第1ラウンド(ブルガリア) : 人間がわずかに近い位置を当てて勝利したが、点差は約100点にすぎなかった
  • 第2ラウンド(オーストリア) : o3がタクシーのドメインアドレスを検索して実際の都市名を把握し、ほぼ完璧に正解位置を当てて5,000点に近いスコアを獲得
  • 第3ラウンド(アイルランド) : どちらも優れた分析を見せ、o3が道路線と石灰岩地形などを根拠にBurren地域を正確に推定し、わずかに勝利
  • 第4ラウンド(コロンビア) : o3が道路標示、ナンバープレート、店舗看板、地形などをもとに人間より正確に推定し、Web検索なしでも優れた成果を示した
  • 第5ラウンド(スロバキア) : 人間がわずかに近い位置を当てて勝利したが、総合スコア差を覆すことはできなかった

このようにo3は全5か国をすべて正確に識別し、2つのラウンドでは人間より数百キロメートルも正確に当てるなど、高い精度を示した。

EXIF改ざん実験: AIはだまされなかった

  • テストのため、実際の位置と無関係なGPS座標を含むEXIFデータを挿入した画像を使ったが、o3はその情報が実際の画像内容と一致しないことを認識して無視
  • EXIF情報をテキストで与えても、写真内の環境を根拠にまったく別の位置を正確に推定
  • AIが単にメタデータに依存しているのではなく、画像内容を深く分析していることを証明

人間とAIの違い

  • o3は各ラウンド平均2〜6分の推論時間を要した一方、人間プレイヤーは1〜2分以内にほとんどの推測を完了
  • AIは時に広告板など重要度の低い要素に時間を使う一方、人間は重要な手がかりを素早く認識して優先順位を付ける
  • しかしo3は道路標識、ナンバープレート、建築様式、地形、植生など多様な視覚情報を精緻に組み合わせて高い精度を示した

結論

  • o3は単にEXIFや検索だけを使うごまかしではなく、本物の視覚分析能力に基づいて正答を導出
  • Geoguessr Master Iランク以上に近いプレイを見せた
  • 人間は依然として速度と直感で優位を保つが、精度の面ではすでにAIが脅威となる水準
  • これは単なる技術デモを超えて、実用的に活用可能な高性能視覚AIの現状を示す事例である

1件のコメント

 
GN⁺ 2025-04-30
Hacker Newsの意見
  • 車両に「http://taxilinder.at」というステッカーが貼られている。ウェブ検索により、Taxi/ Linder GmbHがオーストリアのドルンビルンにあることが分かる

    • ウェブ検索を使うのはフェアではない。都市内のGeoGuessrラウンドではいくつかのビジネスを検索して満点を取れるが、それはゲームの目的ではない
  • 投稿者は、人々がこの話題を興味深いと感じていることをうれしく思っている

    • みんなにGeoGuessrを試してみることを勧める。投稿者はこのゲームが大好きだ
    • o3モデルが5ラウンド中2ラウンドでウェブ検索を使ったのは不公平で、結果は無効だという意見が多い
    • これを確認するため、検索を使った2つのラウンドを再実行して結果を更新した
    • 結論: 結果はほぼ同じだった。GPS座標は投稿で確認できる
    • オーストリアのラウンドでは、背景の山をもとに都市を特定するモデルの例を示している
    • すでに多くの情報があり、検索は必要なかった
    • 検索が役立つ場面はあるだろう。しかし、このケースでは関係なかった
  • GeoGuessrではマスターレベルだ。このレベルでは確かに何をすべきか分かっている必要があるが、タイトルから受ける印象ほど高くはない

    • マスターはおよそ800〜1200 ELOで、プロは1900〜2000程度だ。95%のラウンドではすぐに国が分かるが、ロシアやブラジルでは情報がなければ場所は分からない。スクリプターなら自分に勝てる
  • o3は画像データを含むマルチモーダルデータで訓練されていると理解している。訓練データに正確な位置と特徴を持つ画像が含まれていると仮定するのは不合理ではない

    • GeoGuessrはGoogle Mapsを使っており、Google Mapsは画像の大半を第三者から購入している。その第三者がすべての大手AI企業に販売していないのだとしたら、むしろ非常に驚きだ
  • GeoGuessrはさておき、いつかこの技術が子どもたちを救う助けになることを願っている。たとえばFBIのECAPに役立つかもしれない

  • 前の投稿でのコメント:

    • 位置推測が恐ろしいほど正確になり得る地域はあるだろう。たとえば、バックアップの推測として正確な町を当てた記事のように
    • しかし思考の流れを見ると、精度が落ちる地域も多いはずだ。カンザスのトレーラーパークの写真を見せれば、モデルは州までしか当てられないだろう
    • この投稿は大きなサンプルサイズではないが、この種のモデルがどう機能するかについての予想を反映している。視覚情報があまり多くない写真でも、国を当てる点では信頼できた
    • 前の記事では1枚の写真だけをテストし、2回目の推測で正確な町を当て、投稿者はそれを「恐ろしいほど正確だ」と表現した。これは判断の問題だ
    • ウェブ検索を有効にしたo3は、高いレベルでGeoGuessrをプレイできるようだ。今はo3のGeoGuessrボットが複数の試合をこなし、ELOがどうなるのか見てみたい
  • 今週o3で少し遊んでみようと思っていたが、興味深いことに、より多くのパターンマッチングを試みていた。たとえば、ヨーロッパやアメリカの写真は簡単に推論できる

    • しかし、オンライン上に写真があまりない場所では、より深く掘り下げずに、自分のデータベースやインターネット上でのパターンマッチングを試みる
    • たとえば、2020年以降に広がった島の人気トレイルがある。最初は島の岩やブラジルの植生に言及していたが、リオデジャネイロの場所を探そうとしていた
    • 別の例として、干潮時の天然プールで有名なビーチがある。満潮時に撮られた写真では、植生と州は正確に捉えていたが、より有名な場所をまた探そうとしていた
  • 驚きだ。AIには前向きだが、ここでは人間が勝つと思っていた。「それは本当の推論ではない」というゴールポスト移動が起きると予想している

  • 個人的には、LLMの応用としてはあまり印象的ではないものの一つだと思う。すでにあらゆる植物や道路標識などを知っている。従来型のニューラルネットワークでも、ここではうまくやれると想像できる

  • OSINT(Bellingcat/Trace an object)風の作業ではゲームチェンジャーになるだろう。すでにそうなっているのか気になる

    • GeoGuessrスタイルの大会が開かれるかもしれず、少なくとも副操縦士のような形で大量識別に大きく貢献できる可能性がある