6 ポイント 投稿者 GN⁺ 2025-04-27 | 2件のコメント | WhatsAppで共有
  • OpenAIの新しいモデル o3 は、写真だけを見て撮影場所を驚くほど正確に推測する能力を持つ
  • 写真の視覚的手がかりを分析し、拡大・クロップによってより多くのディテールを引き出す過程を示す
  • 最初は Cambria, California を推測したが、2番目の推測である El Granada が正確に当たった
  • ツール連携型の思考体系を活用して写真を分析する過程が、非常に革新的なパターンを示している
  • 技術の両面性への警戒を強調し、写真共有の危険性も指摘している

o3モデルの驚くべき写真位置推測能力

  • OpenAIの o3モデル は、写真を見てそれがどこで撮られたのかを驚くほど高い精度で推測する能力を持つ
  • ユーザーは明確なランドマークのない、ありふれた街並みを写した写真を提示し、「この写真はどこで撮られたと思う?」と尋ねた
  • モデルは当初、画像を見られないと誤解したが、すぐに視覚分析を開始した
  • 住宅、花壇、丘、標識などさまざまな視覚的手がかりを分析し、撮影場所を絞り込んでいった

o3の写真分析プロセス

  • モデルは車のナンバープレートを確認するために、写真をクロップして拡大する方法を使った
  • Pythonコードを使って画像の特定部分を切り出し、その結果を分析した
  • ナンバープレートのデザインから カリフォルニア州 だと推論し、周辺環境や建築様式なども分析した
  • その結果、最終的に Cambria, California を推測し、第2候補として Half Moon Bay–El Granada を提示した

分析精度と追加実験

  • 実際の撮影場所は El Granada で、モデルの2番目の推測が正解だった
  • EXIFメタデータを使わなくても位置を推測できることが確認された
  • ユーザーがEXIF情報を削除したスクリーンショットで実験した結果、それでも正確な推論が可能だった
  • 他モデルの Claude 3.5/3.7 Sonnet も良好な性能を示したが、o3のような拡大機能はサポートしていない
  • Geminiモデル は位置情報を不正確に使ったり、誤って推測したりする場合があった

ツール連携型思考体系とその意味

  • o3は「思考中」に必要なツールを自ら使う、新しい Tool-augmented Chain-of-Thought 方式を採用している
  • 写真分析だけでなく、検索などさまざまな作業でもこのパターンは強力な性能を発揮する
  • 今後は他のAIモデルにも同様の方式が広がっていくと予想される

技術の面白さと危険性

  • モデルの推論過程を見守ることは、非常に面白く没入感のある体験をもたらす
  • 同時に、写真を通じた位置追跡の可能性が一般化したことへの警戒も重要だ
  • 誰でも日常の写真だけで個人の位置を追跡できるため、プライバシーと安全の問題への認識が必要になる

o3モデルの位置アクセス性に関する追加情報

  • o3はユーザーのおおまかな位置情報を参照できるが、これは正確な位置推論の主要因ではない
  • EXIFメタデータがない状態でも、数千マイル離れた地域の写真をかなり正確に分析した
  • 他のユーザーたちもさまざまな場所で実験し、o3の分析能力を再確認した

2件のコメント

 
unsure4000 2025-04-27

EXIFに逆情報を入れてみたらどうでしょうか?

 
GN⁺ 2025-04-27
Hacker Newsの意見
  • 私は競技レベルでGeoguessrをかなり高い水準でプレイしており、このモデルを試してみたかった

    • 驚くほど優秀だった
    • 私が住んでいる地域の写真を正確に当て、私がその近くに住んでいるという情報を使ったことにも言及していた
    • 昔の旅行写真でも、プロの人間プレイヤーよりうまく当てていた
    • ヨーロッパ、中米、アメリカのさまざまな場所を含んでいた
    • 結論に至る過程が人間に似ている
    • 植物、地形、建築物、道路インフラ、標識などを分析する
    • 人間にも可能だが、数千回のゲームや深い学習が必要になる
    • 私は道路標示、電柱、建築物などを覚えるために何百枚ものフラッシュカードを使っている
    • こうしたモデルは、個人が記憶できるよりはるかに多くの情報を持っている
  • EXIFデータは見ていなかったと確信している

    • もし見ていたなら、最初にCambriaと推測することはなかったはずだ
    • あるときは、画像データをまったく見られないと述べていた
    • そんな言葉は絶対に信用できない
    • EXIFデータを削除して再実行する必要がある
  • 私が試したすべての画像で、ベースモデルは写真の場所をおよそ95%の精度で把握した

    • OPの最初の画像では、4oはCarmel-by-the-Seaをより正確に推測した
    • CoTでは最初の推論ステップとして、ほぼ正確な位置が見えている
    • それでもモデルはそれを無視して別の場所を試した
    • ベースモデルが手がかりを知らないとき、o3は賢い振る舞いをしない
    • モデルは、ツール使用回数に関係なく正解へ導くようにRLされている
  • 同じことを試したが、結果は笑えるものだった

    • 手がかりをまったくつかめていなかった
    • 私がいる都市ではない、というプロンプトを何度も見た
    • ぼやけたアスファルトの分析を始めたときが一番おかしかった
    • 6分後、o3は自信満々に間違えた
  • o3はユーザーの位置をおおまかにモデリングしている

    • 新しい検索機能を支えるためのものだと考えている
    • 追加で2つのクエリ例を実行したが、どちらももっともらしい結果を示した
  • 人々がYouTubeTVを見ているとき、自分が話していた内容に関する広告が出て驚くことを思い出させる

    • 実際には、現代のMLは位置情報、データパートナー、最近の検索を使って広告の関連性をかなりうまく推測できる
    • そう説明しても、いまだにコンピュータが聞き耳を立てていると信じる人がいる
  • 位置推測が恐ろしく正確になりうる領域はあるはずだ

    • しかし推論過程を見ると、精度の低い領域も多いはずだ
    • カンザスのトレーラーパークの写真を見せたら、モデルは州までしか当てられないだろう
    • ロボット・アポカリプスが起きたら、カリフォルニアが最初に危険になるはずだ
  • EXIFデータは見ていなかったと確信している

    • 似たような作業でズルをするなら、少しだけ外した場所を提案するはずだ
    • EXIFデータを削除した同じ画像でどう振る舞うかを見るのは興味深い
  • 別の日には、それほど印象的ではなかった

    • 提供した画像を見つけられなかった
    • 画像のクロップや類似検索を繰り返していた
    • 画像生成機能を使うと、大きな画像データベースを参照資料として使っていることが分かる
  • o4-miniがこの作業に失敗しているのかどうかは確信が持てない

    • 提供した写真ではうまく機能しなかった
    • Basel Main Train StationのSprüngliという文字を含む写真を与えたところ、モデルはZurichを提案した
    • 2枚目の写真はさらに難しかった
    • Metzの博物館内部の写真だったが、モデルは最初から外していた
    • 全体として、画像を理解して推論するのは依然としてすごいが、あまり知られていない場所ではうまくいかない