AI资讯新闻榜单内容搜索-视觉

4D空间智能：AI如何一步步「看懂」时空结构？一篇综述解析通往四维世界的五大层次

4D 空间智能重建是计算机视觉领域的核心挑战，其目标在于从视觉数据中还原三维空间的动态演化过程。这一技术通过整合静态场景结构与时空动态变化，构建出具有时间维度的空间表征系统，在虚拟现实、数字孪生和智能交互等领域展现出关键价值。

来自主题: AI技术研报

8248 点击 2025-08-12 11:42

擅长「种草」的小红书正加大技术自研力度，两个月内接连开源三款模型！最新开源的首个多模态大模型dots.vlm1，基于自研视觉编码器构建，实测看穿色盲图，破解数独，解高考数学题，一句话写李白诗风，视觉理解和推理能力都逼近Gemini 2.5 Pro闭源模型。

来自主题: AI资讯

7995 点击 2025-08-07 18:41

大部分现有的文档检索基准（如MTEB）只考虑了纯文本。而一旦文档的关键信息蕴含在图表、截图、扫描件和手写标记中，这些基准就无能为力。为了更好的开发下一代向量模型和重排器，我们首先需要一个能评测模型在视觉复杂文档能力的基准集。

来自主题: AI技术研报

10397 点击 2025-08-07 14:43

上周我写过一篇AI产品自用分享，当时我说，AI知识问答方面，我会选择openai o3和豆包。

来自主题: AI资讯

9399 点击 2025-08-07 11:39

深度研究智能体（Deep Research Agents）凭借大语言模型（LLM）和视觉-语言模型（VLM）的强大能力，正在重塑知识发现与问题解决的范式。

来自主题: AI资讯

6937 点击 2025-08-06 15:38

老黄曾预言，每个像素都将由AI生成！刚刚，谷歌DeepMind放出的「通用世界模型」Genie 3，一句话即生720p实时模拟世界，1分钟视觉记忆一致性超高。刚刚，谷歌DeepMind祭出新一代通用世界模型——Genie 3，能模拟出史无前例的丰富交互环境。

来自主题: AI资讯

9926 点击 2025-08-06 10:53

凭借类人化的结构设计与运动模式，人形机器人被公认为最具潜力融入人类环境的通用型机器人。其核心任务涵盖操作 (manipulation)、移动 (locomotion) 与导航 (navigation) 三大领域，而这些任务的高效完成，均以机器人对自身所处环境的全面精准理解为前提。

来自主题: AI技术研报

7037 点击 2025-08-05 16:14

在人工智能快速发展的今天，我们已逐渐习惯于让 AI 识别图像、理解语言，甚至与之对话。但当我们进入真实三维世界，如何让 AI 具备「看懂场景」、「理解空间」和「推理复杂任务」的能力？这正是 3D 视觉语言模型（3D VLM）所要解决的问题。

来自主题: AI技术研报

6811 点击 2025-08-04 20:04

尽管当前的机器人视觉语言操作模型（VLA）展现出一定的泛化能力，但其操作模式仍以准静态的抓取与放置（pick-and-place）为主。相比之下，人类在操作物体时常常采用推动、翻转等更加灵活的方式。若机器人仅掌握抓取，将难以应对现实环境中的复杂任务。

来自主题: AI技术研报

7269 点击 2025-08-02 13:19

在复杂的开放环境中，让足式机器人像人类一样自主完成「先跑到椅子旁，再快速接近行人」这类长程多目标任务，一直是 robotics 领域的棘手难题。传统方法要么局限于固定目标类别，要么难以应对运动中的视觉抖动、目标丢失等实时挑战，导致机器人在真实场景中常常「迷路」或「认错对象」。

来自主题: AI技术研报

6536 点击 2025-07-28 10:29