AI资讯新闻榜单内容搜索-VLM

CVPR 2026 | 从视觉Token内在变化量出发，实现VLM无损加速1.87倍

随着高分辨率图像理解与长视频处理需求的爆发式增长，大型视觉语言模型（LVLMs）所需处理的视觉 Token 数量急剧膨胀，推理效率成为落地部署的核心瓶颈。Token 压缩是缩短序列、提升吞吐的直接手段，但现有方法普遍依赖注意力权重来判断 Token 重要性，这一路线暗藏两个致命缺陷：

来自主题: AI技术研报

9779 点击 2026-03-17 08:49

当前，大语言模型（LLMs）和视觉语言模型（VLMs）在语义领域的成功未能直接迁移至物理机器人，归根结底在于其互联网原生的基因。

来自主题: AI技术研报

7445 点击 2026-03-11 15:04

随着视觉-语言模型（VLM）推理能力不断增强，一个隐蔽的问题逐渐浮现：很多错误不是推理没做好，而是“看错了”。

来自主题: AI技术研报

8714 点击 2026-02-09 14:56

准备回家过年了吗？有没有感觉今年回家比去年还堵？据说今年春运流量再创新高，官方预计40天内人员流动量将达95亿人次，其中多数人仍然选择自驾出行，占比达到了8成，人次超过70亿。

来自主题: AI资讯

9049 点击 2026-02-07 14:17

近年来，Vision-Language Models（视觉—语言模型）在多模态理解任务中取得了显著进展，并逐渐成为通用人工智能的重要技术路线。

来自主题: AI技术研报

8375 点击 2026-01-31 12:30

这一框架可用于集成额外文本、语音和视觉等多种模态。

来自主题: AI技术研报

10528 点击 2026-01-27 16:15

随着大模型步入规模化应用深水区，日益高昂的推理成本与延迟已成为掣肘产业落地的核心瓶颈。在 “降本增效” 的行业共识下，从量化、剪枝到模型蒸馏，各类压缩技术竞相涌现，但往往难以兼顾性能损耗与通用性。

来自主题: AI技术研报

11125 点击 2026-01-19 08:54

现有的视觉大模型普遍存在「语义-几何鸿沟」（Semantic-to-Geometric Gap），不仅分不清东南西北，更难以处理精确的空间量化任务。例如问「你坐在沙发上时，餐桌在你的哪一侧？」，VLM 常常答错。

来自主题: AI技术研报

7237 点击 2026-01-13 10:20

大模型能写代码、解奥数，却连幼儿园小班都考不过？简单的连线找垃圾桶、数积木，人类一眼即知，AI却因为无法用语言「描述」视觉信息而集体翻车。大模型到底「懂不懂」，这个评测基准给出答案。

来自主题: AI技术研报

9879 点击 2026-01-12 10:29

近日，24 岁的 00 后博士生胡文博和所在团队造出一款名为 G²VLM 的超级 AI 模型，它是一位拥有空间超能力的视觉语言小能手，不仅能从普通的平面图片中精准地重建出三维世界，还能像人类一样进行复杂的空间思考和空间推理。

来自主题: AI技术研报

6493 点击 2025-12-15 14:49