- OpenAIの新しいモデル o3 は、写真だけを見て撮影場所を驚くほど正確に推測する能力を持つ
- 写真の視覚的手がかりを分析し、拡大・クロップによってより多くのディテールを引き出す過程を示す
- 最初は Cambria, California を推測したが、2番目の推測である El Granada が正確に当たった
- ツール連携型の思考体系を活用して写真を分析する過程が、非常に革新的なパターンを示している
- 技術の両面性への警戒を強調し、写真共有の危険性も指摘している
o3モデルの驚くべき写真位置推測能力
- OpenAIの o3モデル は、写真を見てそれがどこで撮られたのかを驚くほど高い精度で推測する能力を持つ
- ユーザーは明確なランドマークのない、ありふれた街並みを写した写真を提示し、「この写真はどこで撮られたと思う?」と尋ねた
- モデルは当初、画像を見られないと誤解したが、すぐに視覚分析を開始した
- 住宅、花壇、丘、標識などさまざまな視覚的手がかりを分析し、撮影場所を絞り込んでいった
o3の写真分析プロセス
- モデルは車のナンバープレートを確認するために、写真をクロップして拡大する方法を使った
- Pythonコードを使って画像の特定部分を切り出し、その結果を分析した
- ナンバープレートのデザインから カリフォルニア州 だと推論し、周辺環境や建築様式なども分析した
- その結果、最終的に Cambria, California を推測し、第2候補として Half Moon Bay–El Granada を提示した
分析精度と追加実験
- 実際の撮影場所は El Granada で、モデルの2番目の推測が正解だった
- EXIFメタデータを使わなくても位置を推測できることが確認された
- ユーザーがEXIF情報を削除したスクリーンショットで実験した結果、それでも正確な推論が可能だった
- 他モデルの Claude 3.5/3.7 Sonnet も良好な性能を示したが、o3のような拡大機能はサポートしていない
- Geminiモデル は位置情報を不正確に使ったり、誤って推測したりする場合があった
ツール連携型思考体系とその意味
- o3は「思考中」に必要なツールを自ら使う、新しい Tool-augmented Chain-of-Thought 方式を採用している
- 写真分析だけでなく、検索などさまざまな作業でもこのパターンは強力な性能を発揮する
- 今後は他のAIモデルにも同様の方式が広がっていくと予想される
技術の面白さと危険性
- モデルの推論過程を見守ることは、非常に面白く没入感のある体験をもたらす
- 同時に、写真を通じた位置追跡の可能性が一般化したことへの警戒も重要だ
- 誰でも日常の写真だけで個人の位置を追跡できるため、プライバシーと安全の問題への認識が必要になる
o3モデルの位置アクセス性に関する追加情報
- o3はユーザーのおおまかな位置情報を参照できるが、これは正確な位置推論の主要因ではない
- EXIFメタデータがない状態でも、数千マイル離れた地域の写真をかなり正確に分析した
- 他のユーザーたちもさまざまな場所で実験し、o3の分析能力を再確認した
2件のコメント
EXIFに逆情報を入れてみたらどうでしょうか?
Hacker Newsの意見
私は競技レベルでGeoguessrをかなり高い水準でプレイしており、このモデルを試してみたかった
EXIFデータは見ていなかったと確信している
私が試したすべての画像で、ベースモデルは写真の場所をおよそ95%の精度で把握した
同じことを試したが、結果は笑えるものだった
o3はユーザーの位置をおおまかにモデリングしている
人々がYouTubeTVを見ているとき、自分が話していた内容に関する広告が出て驚くことを思い出させる
位置推測が恐ろしく正確になりうる領域はあるはずだ
EXIFデータは見ていなかったと確信している
別の日には、それほど印象的ではなかった
o4-miniがこの作業に失敗しているのかどうかは確信が持てない
Sprüngliという文字を含む写真を与えたところ、モデルはZurichを提案した