谁是视觉推理 AI 之王？一场游戏，横评 5 大顶流模型

8037点击 2025-05-02 16:24

Hi，我想先请你只看下面这张照片，推测它的拍摄城市：

谁是视觉推理 AI 之王？一场游戏，横评 5 大顶流模型

这是一类叫做「网络迷踪」的推理游戏：只看照片，判断拍摄地点的位置，距离越近，得分越高。

游戏过程是这样的：

谁是视觉推理 AI 之王？一场游戏，横评 5 大顶流模型

太适合测试 AI 的视觉推理能力了。

谁是视觉推理 AI 之王？一场游戏，横评 5 大顶流模型

完美模拟了人类玩家的视觉推理过程：

精准识别视觉元素：解读路牌文字、辨认植被类型、分析建筑风格特征；

调用知识储备：判断特定电线杆造型属于哪个国家或地区；

以及多层次线索整合推理。

要想在这个游戏中取得好成绩，AI 们必须同时发挥其视觉识别、模型知识、逻辑推理的最大潜能。

当 AI 答题结果被标注在地图上后，它们之间的智力差距也就一目了然。

谁是视觉推理 AI 之王？一场游戏，横评 5 大顶流模型

比单一维度的 Benchmark 跑分，能更有趣、直观地看到模型的差距。

所以我拉上了国内外 5 个顶流多模态推理模型，一起来做了这项比赛。

你猜，谁是视觉推理 AI 之王？

简单介绍「AI 网络迷踪」赛制

本次比赛的参赛选手如下：

谁是视觉推理 AI 之王？一场游戏，横评 5 大顶流模型

注：DeepSeek-R1 其实不支持多模态（视觉识别），故不参加比赛。

比赛规则很简单：

1.共 5 道题目，每题提供同一位置两张不同拍摄方向的照片（题源：图寻-每日挑战-全球 04/20）

谁是视觉推理 AI 之王？一场游戏，横评 5 大顶流模型

2.通过统一的比赛 Prompt，要求 AI 给出它认为最可能的经纬度坐标

你正在参与地图迷踪比赛，不准联网。 右下角小地图不包含任何有效信息。 分析提供的图片，推断其拍摄的地理位置的行政区划层级（格式：大洲，国家，行政区，城市，乡镇）和经纬度（格式，如 41.40338, 2.17403），尽可能准确。 使用中文回答。

3.每一题均在地图上标注出所有 AI 的猜测点和实际位置，距离越近，排名越高

第一轮：某热带地区

谁是视觉推理 AI 之王？一场游戏，横评 5 大顶流模型

非常典型的热带地区植被，棕榈树、阔叶树随处可见，现代化风格的住宅楼，路面状况良好，略微倾斜，似乎是丘陵地带。

第一轮测试中，各模型回答如下：

ChatGPT-o3：

谁是视觉推理 AI 之王？一场游戏，横评 5 大顶流模型

Gemini-2.5-pro：

谁是视觉推理 AI 之王？一场游戏，横评 5 大顶流模型

Claude-3.7-sonnet-thinking：

谁是视觉推理 AI 之王？一场游戏，横评 5 大顶流模型

Doubao-1.5-thinking-pro：

谁是视觉推理 AI 之王？一场游戏，横评 5 大顶流模型

QVQ-Max：

谁是视觉推理 AI 之王？一场游戏，横评 5 大顶流模型

把第一轮的答题结果对应到地图坐标位置，与实际答案距离位置如图：

谁是视觉推理 AI 之王？一场游戏，横评 5 大顶流模型

实际位置约在：1.266428, 103.823641，可在 Google 地图查看街景

不过第一轮照片，其实还是缺乏了决定性信息。如果要完全精准，就需要对照新加坡的卫星/街景影像，进行一一排查。

本轮排名：

谁是视觉推理 AI 之王？一场游戏，横评 5 大顶流模型

第二轮：有俄文名称的工厂

谁是视觉推理 AI 之王？一场游戏，横评 5 大顶流模型

第二轮的各 AI 的猜测结果，对应地图位置如下：

谁是视觉推理 AI 之王？一场游戏，横评 5 大顶流模型

其中 ChatGPT 和 Gemini 表现出了意外的准确性，误差均在 1 公里左右。

虽然不小心定位到海里去了，但无伤大雅。（主要是因为本轮比赛中， AI 不能通过地图服务确认经纬度的真实位置情况）

谁是视觉推理 AI 之王？一场游戏，横评 5 大顶流模型

实际位置约在：44.727172, 37.823414，可在 Google 地图查看街景

特别的，ChatGPT-o3 在本次推理过程中，对图像进行了多次“缩放再识别”，类似人类识别图像细节的过程，

“当整张图像看不出足够的信息时，通过放大图像，来加强对某个特征区域的细节识别”。

想来这种视觉推理方式，很快会成为各家的共识。

谁是视觉推理 AI 之王？一场游戏，横评 5 大顶流模型

本轮排名：

谁是视觉推理 AI 之王？一场游戏，横评 5 大顶流模型

第三轮：某海边公路

谁是视觉推理 AI 之王？一场游戏，横评 5 大顶流模型

沿海的公路，远处西方有雪山，太阳非常好，绕山公路的方向也很明显。

第三轮的各 AI 的猜测结果，对应地图位置如下：

谁是视觉推理 AI 之王？一场游戏，横评 5 大顶流模型

实际位置约在：38.658016, 23.967011，可在 Google 地图查看街景

本轮排名：

谁是视觉推理 AI 之王？一场游戏，横评 5 大顶流模型

第四轮：零售园区

谁是视觉推理 AI 之王？一场游戏，横评 5 大顶流模型

这轮其实给出的信息已经很多，各式各样的建筑招牌名称、各型号的汽车、以及平坦的地貌。

第四轮结果，对应地图位置如下：

谁是视觉推理 AI 之王？一场游戏，横评 5 大顶流模型

实际位置约在：44.867243, 13.868149，可在 Google 地图查看街景

ChatGPT 和 Gemini 表现的都很“本地人”，不过 Gemini 这次更胜一筹。

谁是视觉推理 AI 之王？一场游戏，横评 5 大顶流模型

值得一提的是，本次实测中，只有 QVQ-Max 和 ChatGPT-o3 识别出了图二远处很小的“Decathlon”迪卡侬 Logo。

（这样来看，QVQ 没做缩放再识别，识别精度也不错）

谁是视觉推理 AI 之王？一场游戏，横评 5 大顶流模型

如果 AI 能调用 Google 地图，进行建筑名称的布局、距离的真实比对，应该更容易找到完全精确的位置。

本轮排名：

谁是视觉推理 AI 之王？一场游戏，横评 5 大顶流模型

第五轮：干燥丘陵

谁是视觉推理 AI 之王？一场游戏，横评 5 大顶流模型

最后一轮的信息就相当有限了，干燥的丘陵地形，主要为低矮灌木，符合地中海气候区或者温带大陆性半干旱气候区的特征。

维护的相对良好的土路，道路大致朝西南方向。估计是在乡村或偏远地区，交通不便。推理难度确实比之前的更高。

各家 AI 推测的地图位置如下：

谁是视觉推理 AI 之王？一场游戏，横评 5 大顶流模型

实际位置约在：40.372043, 31.760780，可在 Google 地图查看街景

本轮排名：

谁是视觉推理 AI 之王？一场游戏，横评 5 大顶流模型

比赛结果：o3 第一

统计 5 轮比赛结果，平均名次就是最终成绩：

谁是视觉推理 AI 之王？一场游戏，横评 5 大顶流模型

ChatGPT-o3 毫无疑问是本次视觉推理的王者，在 4/5 的轮次中得到第一名。也是唯一一个支持“缩放再识别推理”的模型，在精细识别视觉线索时表现突出

Gemini 和 ChatGPT 的推测位置差距不大，实际上表现接近

阿里云的 QVQ 整体表现也挺稳定；还识别出了只有 ChatGPT 通过放大才识别出来的 logo。

另外，作为本次参赛模型中唯一有开源习惯的 Qwen 系列模型，还可以期待后续 Max 版本的开源

Btw：其实没想到 Claude 3.7 sonnet thinking 在「AI 网络迷踪」中表现会这么不如意

小结

这次比赛，并没有让 AI 联网使用地图服务或图像搜索，纯粹考察模型基于自身的视觉识别、知识储备、多模态推理这三大核心能力。

（模拟了真实人类玩「图寻」的情况，没时间用地图查询作弊）

但在 AI 的帮助下，我依然超过了今天 94.88% 的玩家，刷新了我自己的得分纪录。

谁是视觉推理 AI 之王？一场游戏，横评 5 大顶流模型

而这当然不是当前 AI 的能力边界。

当我们把卫星地图、街景影像服务，甚至小红书等社交平台的权限，通过类 MCP 协议提供给 AI 后，

任何人都能用 AI 快速推测一张照片的大致范围，再利用卫星影像、社交平台照片内容精细比对，最终推测出精度极其恐怖的位置信息。

谁是视觉推理 AI 之王？一场游戏，横评 5 大顶流模型

那样，精准定位一个人的位置不再是难题。

而一个能看懂世界、调用互联网海量工具、多步推理的 AI，将在地图导航、生活服务、乃至安防监控等方方面面带来多大的变化？

Now, Big Brother is watching you.

文章来自于微信公众号 “一泽Eze”，作者：一泽Eze

谁是视觉推理 AI 之王？一场游戏，横评 5 大顶流模型

关键词: AI , AI视频 , AI产品评测 , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址：https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装：https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体，能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址：https://github.com/hitsz-ids/airda

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0