谁是视觉推理 AI 之王?一场游戏,横评 5 大顶流模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
谁是视觉推理 AI 之王?一场游戏,横评 5 大顶流模型
7065点击    2025-05-02 16:24

谁是视觉推理 AI 之王?一场游戏,横评 5 大顶流模型


Hi,我想先请你只看下面这张照片,推测它的拍摄城市:


谁是视觉推理 AI 之王?一场游戏,横评 5 大顶流模型


这是一类叫做「网络迷踪」的推理游戏:只看照片,判断拍摄地点的位置,距离越近,得分越高。


游戏过程是这样的 :


谁是视觉推理 AI 之王?一场游戏,横评 5 大顶流模型


太适合测试 AI 的视觉推理能力了。


谁是视觉推理 AI 之王?一场游戏,横评 5 大顶流模型


完美模拟了人类玩家的视觉推理过程:


精准识别视觉元素:解读路牌文字、辨认植被类型、分析建筑风格特征;


调用知识储备:判断特定电线杆造型属于哪个国家或地区;


以及多层次线索整合推理。


要想在这个游戏中取得好成绩,AI 们必须同时发挥其视觉识别、模型知识、逻辑推理的最大潜能


当 AI 答题结果被标注在地图上后,它们之间的智力差距也就一目了然。


谁是视觉推理 AI 之王?一场游戏,横评 5 大顶流模型


比单一维度的 Benchmark 跑分,能更有趣、直观地看到模型的差距。


所以我拉上了国内外 5 个顶流多模态推理模型,一起来做了这项比赛。


你猜,谁是视觉推理 AI 之王?


简单介绍「AI 网络迷踪」赛制


本次比赛的参赛选手如下:


谁是视觉推理 AI 之王?一场游戏,横评 5 大顶流模型


注:DeepSeek-R1 其实不支持多模态(视觉识别),故不参加比赛。


比赛规则很简单:


1.共 5 道题目,每题提供同一位置两张不同拍摄方向的照片(题源:图寻-每日挑战-全球 04/20)


谁是视觉推理 AI 之王?一场游戏,横评 5 大顶流模型


2.通过统一的比赛 Prompt,要求 AI 给出它认为最可能的经纬度坐标


你正在参与地图迷踪比赛,不准联网。 右下角小地图不包含任何有效信息。 分析提供的图片,推断其拍摄的地理位置的行政区划层级(格式:大洲,国家,行政区,城市,乡镇)和经纬度(格式,如 41.40338, 2.17403),尽可能准确。 使用中文回答。


3.每一题均在地图上标注出所有 AI 的猜测点和实际位置,距离越近,排名越高


第一轮:某热带地区


谁是视觉推理 AI 之王?一场游戏,横评 5 大顶流模型


谁是视觉推理 AI 之王?一场游戏,横评 5 大顶流模型


非常典型的热带地区植被,棕榈树、阔叶树随处可见,现代化风格的住宅楼,路面状况良好,略微倾斜,似乎是丘陵地带。


第一轮测试中,各模型回答如下:


ChatGPT-o3:


谁是视觉推理 AI 之王?一场游戏,横评 5 大顶流模型


Gemini-2.5-pro:


谁是视觉推理 AI 之王?一场游戏,横评 5 大顶流模型


Claude-3.7-sonnet-thinking:


谁是视觉推理 AI 之王?一场游戏,横评 5 大顶流模型


Doubao-1.5-thinking-pro:


谁是视觉推理 AI 之王?一场游戏,横评 5 大顶流模型


QVQ-Max:


谁是视觉推理 AI 之王?一场游戏,横评 5 大顶流模型


把第一轮的答题结果对应到地图坐标位置,与实际答案距离位置如图:


谁是视觉推理 AI 之王?一场游戏,横评 5 大顶流模型


实际位置约在:1.266428, 103.823641,可在 Google 地图查看街景


不过第一轮照片,其实还是缺乏了决定性信息。如果要完全精准,就需要对照新加坡的卫星/街景影像,进行一一排查。


本轮排名 :


谁是视觉推理 AI 之王?一场游戏,横评 5 大顶流模型


第二轮:有俄文名称的工厂


谁是视觉推理 AI 之王?一场游戏,横评 5 大顶流模型


谁是视觉推理 AI 之王?一场游戏,横评 5 大顶流模型


第二轮的各 AI 的猜测结果,对应地图位置如下:


谁是视觉推理 AI 之王?一场游戏,横评 5 大顶流模型


其中 ChatGPT 和 Gemini 表现出了意外的准确性,误差均在 1 公里左右。


虽然不小心定位到海里去了,但无伤大雅。(主要是因为本轮比赛中, AI 不能通过地图服务确认经纬度的真实位置情况)


谁是视觉推理 AI 之王?一场游戏,横评 5 大顶流模型


实际位置约在:44.727172, 37.823414,可在 Google 地图查看街景


特别的,ChatGPT-o3 在本次推理过程中,对图像进行了多次“缩放再识别”,类似人类识别图像细节的过程,


“当整张图像看不出足够的信息时,通过放大图像,来加强对某个特征区域的细节识别”。


想来这种视觉推理方式,很快会成为各家的共识。


谁是视觉推理 AI 之王?一场游戏,横评 5 大顶流模型


本轮排名 :


谁是视觉推理 AI 之王?一场游戏,横评 5 大顶流模型


第三轮:某海边公路


谁是视觉推理 AI 之王?一场游戏,横评 5 大顶流模型


谁是视觉推理 AI 之王?一场游戏,横评 5 大顶流模型


沿海的公路,远处西方有雪山,太阳非常好,绕山公路的方向也很明显。


第三轮的各 AI 的猜测结果,对应地图位置如下:


谁是视觉推理 AI 之王?一场游戏,横评 5 大顶流模型


实际位置约在:38.658016, 23.967011,可在 Google 地图查看街景


本轮排名 :


谁是视觉推理 AI 之王?一场游戏,横评 5 大顶流模型


第四轮:零售园区


谁是视觉推理 AI 之王?一场游戏,横评 5 大顶流模型


谁是视觉推理 AI 之王?一场游戏,横评 5 大顶流模型


这轮其实给出的信息已经很多,各式各样的建筑招牌名称、各型号的汽车、以及平坦的地貌。


第四轮结果,对应地图位置如下:


谁是视觉推理 AI 之王?一场游戏,横评 5 大顶流模型


实际位置约在:44.867243, 13.868149,可在 Google 地图查看街景


ChatGPT 和 Gemini 表现的都很“本地人”,不过 Gemini 这次更胜一筹。


谁是视觉推理 AI 之王?一场游戏,横评 5 大顶流模型


值得一提的是,本次实测中,只有 QVQ-Max 和 ChatGPT-o3 识别出了图二远处很小的“Decathlon”迪卡侬 Logo。


(这样来看,QVQ 没做缩放再识别,识别精度也不错)


谁是视觉推理 AI 之王?一场游戏,横评 5 大顶流模型


如果 AI 能调用 Google 地图,进行建筑名称的布局、距离的真实比对,应该更容易找到完全精确的位置。


本轮排名 :


谁是视觉推理 AI 之王?一场游戏,横评 5 大顶流模型


第五轮:干燥丘陵


谁是视觉推理 AI 之王?一场游戏,横评 5 大顶流模型


谁是视觉推理 AI 之王?一场游戏,横评 5 大顶流模型


最后一轮的信息就相当有限了,干燥的丘陵地形,主要为低矮灌木,符合地中海气候区或者温带大陆性半干旱气候区的特征。


维护的相对良好的土路,道路大致朝西南方向。估计是在乡村或偏远地区,交通不便。推理难度确实比之前的更高。


各家 AI 推测的地图位置如下:


谁是视觉推理 AI 之王?一场游戏,横评 5 大顶流模型


谁是视觉推理 AI 之王?一场游戏,横评 5 大顶流模型


实际位置约在:40.372043, 31.760780,可在 Google 地图查看街景


本轮排名 :


谁是视觉推理 AI 之王?一场游戏,横评 5 大顶流模型


比赛结果:o3 第一


统计 5 轮比赛结果,平均名次就是最终成绩:


谁是视觉推理 AI 之王?一场游戏,横评 5 大顶流模型


  • ChatGPT-o3 毫无疑问是本次视觉推理的王者, 在 4/5 的轮次中得到第一名。也是唯一一个支持“缩放再识别推理”的模型,在精细识别视觉线索时表现突出


  • Gemini 和 ChatGPT 的推测位置差距不大,实际上表现接近


  • 阿里云的 QVQ 整体表现也挺稳定;还识别出了只有 ChatGPT 通过放大才识别出来的 logo。


  • 另外,作为本次参赛模型中唯一有开源习惯的 Qwen 系列模型,还可以期待后续 Max 版本的开源


  • Btw:其实没想到 Claude 3.7 sonnet thinking 在「AI 网络迷踪」中表现会这么不如意


小结


这次比赛,并没有让 AI 联网使用地图服务或图像搜索,纯粹考察模型基于自身的视觉识别、知识储备、多模态推理这三大核心能力。


(模拟了真实人类玩「图寻」的情况,没时间用地图查询作弊)


但在 AI 的帮助下,我依然超过了今天 94.88% 的玩家,刷新了我自己的得分纪录。


谁是视觉推理 AI 之王?一场游戏,横评 5 大顶流模型


谁是视觉推理 AI 之王?一场游戏,横评 5 大顶流模型


而这当然不是当前 AI 的能力边界。


当我们把卫星地图、街景影像服务,甚至小红书等社交平台的权限,通过类 MCP 协议提供给 AI 后,


任何人都能用 AI 快速推测一张照片的大致范围,再利用卫星影像、社交平台照片内容精细比对,最终推测出精度极其恐怖的位置信息。


谁是视觉推理 AI 之王?一场游戏,横评 5 大顶流模型


那样,精准定位一个人的位置不再是难题。


而一个能看懂世界、调用互联网海量工具、多步推理的 AI,将在地图导航、生活服务、乃至安防监控等方方面面带来多大的变化?


Now, Big Brother is watching you.


文章来自于微信公众号 “一泽Eze”,作者 :一泽Eze


谁是视觉推理 AI 之王?一场游戏,横评 5 大顶流模型



AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0