AI资讯新闻榜单内容搜索-grounding

下一代目标检测模型：3B参数MLLM Rex-Omni首度超越Grounding DINO，统一10+视觉任务

多模态大语言模型（MLLM）在目标定位精度上被长期诟病，难以匹敌传统的基于坐标回归的检测器。近日，来自 IDEA 研究院的团队通过仅有 3B 参数的通用视觉感知模型 Rex-Omni，打破了这一僵局。

来自主题: AI技术研报

5541 点击 2025-11-14 10:18

世界在AI眼中活了过来！谷歌Grounding with Google Maps功能上线，Gemini可调用2.5亿地点信息，结合搜索工具，提供更准确、更及时的答案，完美适用于旅行规划和本地服务。

来自主题: AI资讯

7602 点击 2025-10-24 11:43

无需海量数据标注，智能体也能精确识别定位目标元素了！来自浙大等机构的研究人员提出GUI-RCPO——一种自我监督的强化学习方法，可以让模型在没有标注的数据上自主提升GUI grounding（图形界面定位）能力。

来自主题: AI技术研报

7758 点击 2025-09-05 15:28

智谱基于GLM-4.5打造的开源多模态视觉推理模型GLM-4.5V，在42个公开榜单中41项夺得SOTA！其功能涵盖图像、视频、文档理解、Grounding、地图定位、空间关系推理、UI转Code等。

来自主题: AI资讯

7773 点击 2025-08-12 13:04

本文第一作者唐飞，浙江大学硕士生，研究方向是 GUI Agent、多模态推理等。

来自主题: AI技术研报

8635 点击 2025-08-04 13:59

本文的主要作者来自复旦大学和南洋理工大学 S-Lab，研究方向聚焦于视觉推理与强化学习优化。

来自主题: AI技术研报

8391 点击 2025-07-22 10:21

3D 视觉定位（3D Visual Grounding, 3DVG）是智能体理解和交互三维世界的重要任务，旨在让 AI 根据自然语言描述在 3D 场景中找到指定物体。

来自主题: AI技术研报

7233 点击 2025-03-24 15:47

谷歌推出的FACTS Grounding基准测试，能评估AI模型在特定上下文中生成准确文本的能力，有助于提升模型的可靠性；通过去除不满足用户需求的回复，确保了评分的准确性和模型排名的公正性。

来自主题: AI技术研报

9121 点击 2025-01-13 13:47

目标检测领域，迎来了新进展—— Grounding DINO 1.5，IDEA研究院团队出品，在端侧就可实现实时识别。

来自主题: AI资讯

10629 点击 2024-05-27 16:47

字节&复旦大学多模态理解大模型来了：可以精确定位到视频中特定事件的发生时间。

来自主题: AI资讯

7424 点击 2024-01-14 13:44