AI资讯新闻榜单内容搜索-Vision-Lan

RSS2026 | 强泛化强迁移VLA，上海创智学院×上海交大提出MINT：让VLA从模仿轨迹走向理解意图

机器人视觉语言动作（Vision-Language-Action, VLA）模型越来越多地开始展示叠衣服、倒茶、做咖啡等复杂操作。但是，今天的大多数 VLA 更像 “展台机器人”。

来自主题: AI技术研报

6212 点击 2026-06-10 14:40

终结VLA？英伟达押注的具身新范式，首篇世界动作模型WAM综述重磅发布

Jim Fan 押注的这条 “先预测世界，再生成动作” 的新路，正是当下具身智能领域最炙手可热的下一代范式 —— 世界动作模型（World Action Models，简称 WAM）。虽然 WAM 正在迅速成为各大顶尖实验室的核心发力点，但业界至今仍然缺乏对它的统一标准和系统梳理。近期，复旦大学可信具身智能研究院，上海创智学院，新加坡国立大学发表了首篇 WAM 的详细综述。

来自主题: AI技术研报

8822 点击 2026-05-23 09:55

统一VLA范式！港科大开源StarVLA乐高式架构，复现成本大幅降低

当前具身智能的VLA（Vision-Language-Action）赛道正陷入典型的「碎片化」泥潭：不同团队采用异构的动作解码范式、强耦合的数据管线、互不兼容的评测协议，导致方法难以横向对比，复现成本极高。

来自主题: AI技术研报

9076 点击 2026-04-14 08:42

Attention真的可靠吗？上海大学联合南开大学揭示多模态模型中一个被忽视的重要偏置问题

近年来，Vision-Language Models（视觉 — 语言模型）在多模态理解任务中取得了显著进展，并逐渐成为通用人工智能的重要技术路线。然而，这类模型在实际应用中往往面临推理开销大、效率受限的问题，研究者通常依赖 visual token pruning 等策略降低计算成本，其中 attention 机制被广泛视为衡量视觉信息重要性的关键依据。

来自主题: AI技术研报

10178 点击 2026-02-06 10:39