AI资讯新闻榜单内容搜索-VLM

化解机器人的「幻觉」：北大发布OmniManip，VLM结合双闭环系统，3D理解能力大幅提升

近年来视觉语⾔基础模型（Vision Language Models, VLMs）在多模态理解和⾼层次常识推理上⼤放异彩，如何将其应⽤于机器⼈以实现通⽤操作是具身智能领域的⼀个核⼼问题。这⼀⽬标的实现受两⼤关键挑战制约：

来自主题: AI技术研报

9107 点击 2025-01-23 13:09

给大模型制作图文并茂的教科书: 从2.5年的教学视频里挖掘多模态语料

近期关于 scaling law 的讨论甚嚣尘上，很多观点认为 scale law is dead. 然而，我们认为，高质量的 “无监督” 数据才是 scaling law 的关键，尤其是教科书级别的高质量的知识语料。此外，尽管传统的语料快枯竭了，但是互联网上还有海量的视频并没有被利用起来，它们囊括了丰富的多种模态的知识，可以帮助 VLMs 更好好地理解世界。

来自主题: AI技术研报

8253 点击 2025-01-20 19:01

细粒度对齐无需仔细标注了！淘天提出视觉锚定奖励，自我校准实现多模态对齐

近年来，视觉大模型（Large Vision Language Models, LVLMs）领域经历了迅猛的发展，这些模型在图像理解、视觉对话以及其他跨模态任务中展现出了卓越的能力。然而，随着 LVLMs 复杂性和能力的增长，「幻觉现象」的挑战也日益凸显。

来自主题: AI技术研报

7905 点击 2025-01-19 14:51

视觉语言模型安全升级，还不牺牲性能！技术解读一文看懂｜淘天MMLab南大重大出品

模型安全和可靠性、系统整合和互操作性、用户交互和认证…… 当“多模态”“跨模态”成为不可阻挡的AI趋势时，多模态场景下的安全挑战尤其应当引发产学研各界的注意。

来自主题: AI技术研报

9783 点击 2025-01-18 10:48

仅缩小视觉Token位置编码间隔，轻松让多模态大模型理解百万Token！清华大学，香港大学，上海AI Lab新突破

随着语言大模型的成功，视觉 - 语言多模态大模型 (Vision-Language Multimodal Models, 简写为 VLMs) 发展迅速，但在长上下文场景下表现却不尽如人意，这一问题严重制约了多模态模型在实际应用中的潜力。

来自主题: AI技术研报

9091 点击 2025-01-15 14:23

数据不够致Scaling Law撞墙？CMU和DeepMind新方法可让VLM自己生成记忆

最近 AI 社区很多人都在讨论 Scaling Law 是否撞墙的问题。其中，一个支持 Scaling Law 撞墙论的理由是 AI 几乎已经快要耗尽已有的高质量数据，比如有一项研究就预计，如果 LLM 保持现在的发展势头，到 2028 年左右，已有的数据储量将被全部利用完。

来自主题: AI技术研报

9851 点击 2025-01-03 15:46

全新模型RoboVLMs解锁VLA无限可能，真实机器人实验交出满分答卷

近年来，视觉语言基础模型（Vision Language Models, VLMs）大放异彩，在多模态理解和推理上展现出了超强能力。现在，更加酷炫的视觉语言动作模型（Vision-Language-Action Models, VLAs）来了！通过为 VLMs 加上动作预测模块，VLAs 不仅能 “看” 懂和 “说” 清，还能 “动” 起来，为机器人领域开启了新玩法！

来自主题: AI技术研报

7615 点击 2025-01-02 16:29