AI资讯新闻榜单内容搜索-VLM

打破视频推理「先看后想」惯性，实现真正的「边看边想」丨CVPR'26

今天的大型视觉语言模型（VLM）做离线视频分析很强，但一到实时场景就尴尬：视频在往前走，模型还在“补作业”。

来自主题: AI技术研报

6707 点击 2026-03-18 14:12

随着高分辨率图像理解与长视频处理需求的爆发式增长，大型视觉语言模型（LVLMs）所需处理的视觉 Token 数量急剧膨胀，推理效率成为落地部署的核心瓶颈。Token 压缩是缩短序列、提升吞吐的直接手段，但现有方法普遍依赖注意力权重来判断 Token 重要性，这一路线暗藏两个致命缺陷：

来自主题: AI技术研报

8856 点击 2026-03-17 08:49

当前，大语言模型（LLMs）和视觉语言模型（VLMs）在语义领域的成功未能直接迁移至物理机器人，归根结底在于其互联网原生的基因。

来自主题: AI技术研报

5805 点击 2026-03-11 15:04

随着视觉-语言模型（VLM）推理能力不断增强，一个隐蔽的问题逐渐浮现：很多错误不是推理没做好，而是“看错了”。

来自主题: AI技术研报

7999 点击 2026-02-09 14:56

准备回家过年了吗？有没有感觉今年回家比去年还堵？据说今年春运流量再创新高，官方预计40天内人员流动量将达95亿人次，其中多数人仍然选择自驾出行，占比达到了8成，人次超过70亿。

来自主题: AI资讯

8414 点击 2026-02-07 14:17

近年来，Vision-Language Models（视觉—语言模型）在多模态理解任务中取得了显著进展，并逐渐成为通用人工智能的重要技术路线。

来自主题: AI技术研报

6330 点击 2026-01-31 12:30

这一框架可用于集成额外文本、语音和视觉等多种模态。

来自主题: AI技术研报

9746 点击 2026-01-27 16:15

随着大模型步入规模化应用深水区，日益高昂的推理成本与延迟已成为掣肘产业落地的核心瓶颈。在 “降本增效” 的行业共识下，从量化、剪枝到模型蒸馏，各类压缩技术竞相涌现，但往往难以兼顾性能损耗与通用性。

来自主题: AI技术研报

10373 点击 2026-01-19 08:54

现有的视觉大模型普遍存在「语义-几何鸿沟」（Semantic-to-Geometric Gap），不仅分不清东南西北，更难以处理精确的空间量化任务。例如问「你坐在沙发上时，餐桌在你的哪一侧？」，VLM 常常答错。

来自主题: AI技术研报

6340 点击 2026-01-13 10:20

大模型能写代码、解奥数，却连幼儿园小班都考不过？简单的连线找垃圾桶、数积木，人类一眼即知，AI却因为无法用语言「描述」视觉信息而集体翻车。大模型到底「懂不懂」，这个评测基准给出答案。

来自主题: AI技术研报

9272 点击 2026-01-12 10:29