Hi,我想先请你只看下面这张照片,推测它的拍摄城市:
这是一类叫做「网络迷踪」的推理游戏:只看照片,判断拍摄地点的位置,距离越近,得分越高。
游戏过程是这样的 :
太适合测试 AI 的视觉推理能力了。
完美模拟了人类玩家的视觉推理过程:
精准识别视觉元素:解读路牌文字、辨认植被类型、分析建筑风格特征;
调用知识储备:判断特定电线杆造型属于哪个国家或地区;
以及多层次线索整合推理。
要想在这个游戏中取得好成绩,AI 们必须同时发挥其视觉识别、模型知识、逻辑推理的最大潜能。
当 AI 答题结果被标注在地图上后,它们之间的智力差距也就一目了然。
比单一维度的 Benchmark 跑分,能更有趣、直观地看到模型的差距。
所以我拉上了国内外 5 个顶流多模态推理模型,一起来做了这项比赛。
你猜,谁是视觉推理 AI 之王?
本次比赛的参赛选手如下:
注:DeepSeek-R1 其实不支持多模态(视觉识别),故不参加比赛。
比赛规则很简单:
1.共 5 道题目,每题提供同一位置两张不同拍摄方向的照片(题源:图寻-每日挑战-全球 04/20)
2.通过统一的比赛 Prompt,要求 AI 给出它认为最可能的经纬度坐标
你正在参与地图迷踪比赛,不准联网。 右下角小地图不包含任何有效信息。 分析提供的图片,推断其拍摄的地理位置的行政区划层级(格式:大洲,国家,行政区,城市,乡镇)和经纬度(格式,如 41.40338, 2.17403),尽可能准确。 使用中文回答。
3.每一题均在地图上标注出所有 AI 的猜测点和实际位置,距离越近,排名越高
非常典型的热带地区植被,棕榈树、阔叶树随处可见,现代化风格的住宅楼,路面状况良好,略微倾斜,似乎是丘陵地带。
第一轮测试中,各模型回答如下:
ChatGPT-o3:
Gemini-2.5-pro:
Claude-3.7-sonnet-thinking:
Doubao-1.5-thinking-pro:
QVQ-Max:
把第一轮的答题结果对应到地图坐标位置,与实际答案距离位置如图:
实际位置约在:1.266428, 103.823641,可在 Google 地图查看街景
不过第一轮照片,其实还是缺乏了决定性信息。如果要完全精准,就需要对照新加坡的卫星/街景影像,进行一一排查。
本轮排名 :
第二轮的各 AI 的猜测结果,对应地图位置如下:
其中 ChatGPT 和 Gemini 表现出了意外的准确性,误差均在 1 公里左右。
虽然不小心定位到海里去了,但无伤大雅。(主要是因为本轮比赛中, AI 不能通过地图服务确认经纬度的真实位置情况)
实际位置约在:44.727172, 37.823414,可在 Google 地图查看街景
特别的,ChatGPT-o3 在本次推理过程中,对图像进行了多次“缩放再识别”,类似人类识别图像细节的过程,
“当整张图像看不出足够的信息时,通过放大图像,来加强对某个特征区域的细节识别”。
想来这种视觉推理方式,很快会成为各家的共识。
本轮排名 :
沿海的公路,远处西方有雪山,太阳非常好,绕山公路的方向也很明显。
第三轮的各 AI 的猜测结果,对应地图位置如下:
实际位置约在:38.658016, 23.967011,可在 Google 地图查看街景
本轮排名 :
这轮其实给出的信息已经很多,各式各样的建筑招牌名称、各型号的汽车、以及平坦的地貌。
第四轮结果,对应地图位置如下:
实际位置约在:44.867243, 13.868149,可在 Google 地图查看街景
ChatGPT 和 Gemini 表现的都很“本地人”,不过 Gemini 这次更胜一筹。
值得一提的是,本次实测中,只有 QVQ-Max 和 ChatGPT-o3 识别出了图二远处很小的“Decathlon”迪卡侬 Logo。
(这样来看,QVQ 没做缩放再识别,识别精度也不错)
如果 AI 能调用 Google 地图,进行建筑名称的布局、距离的真实比对,应该更容易找到完全精确的位置。
本轮排名 :
最后一轮的信息就相当有限了,干燥的丘陵地形,主要为低矮灌木,符合地中海气候区或者温带大陆性半干旱气候区的特征。
维护的相对良好的土路,道路大致朝西南方向。估计是在乡村或偏远地区,交通不便。推理难度确实比之前的更高。
各家 AI 推测的地图位置如下:
实际位置约在:40.372043, 31.760780,可在 Google 地图查看街景
本轮排名 :
统计 5 轮比赛结果,平均名次就是最终成绩:
这次比赛,并没有让 AI 联网使用地图服务或图像搜索,纯粹考察模型基于自身的视觉识别、知识储备、多模态推理这三大核心能力。
(模拟了真实人类玩「图寻」的情况,没时间用地图查询作弊)
但在 AI 的帮助下,我依然超过了今天 94.88% 的玩家,刷新了我自己的得分纪录。
而这当然不是当前 AI 的能力边界。
当我们把卫星地图、街景影像服务,甚至小红书等社交平台的权限,通过类 MCP 协议提供给 AI 后,
任何人都能用 AI 快速推测一张照片的大致范围,再利用卫星影像、社交平台照片内容精细比对,最终推测出精度极其恐怖的位置信息。
那样,精准定位一个人的位置不再是难题。
而一个能看懂世界、调用互联网海量工具、多步推理的 AI,将在地图导航、生活服务、乃至安防监控等方方面面带来多大的变化?
Now, Big Brother is watching you.
文章来自于微信公众号 “一泽Eze”,作者 :一泽Eze
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0