CVPR 2026 | 从视觉Token内在变化量出发,实现VLM无损加速1.87倍
CVPR 2026 | 从视觉Token内在变化量出发,实现VLM无损加速1.87倍随着高分辨率图像理解与长视频处理需求的爆发式增长,大型视觉语言模型(LVLMs)所需处理的视觉 Token 数量急剧膨胀,推理效率成为落地部署的核心瓶颈。Token 压缩是缩短序列、提升吞吐的直接手段,但现有方法普遍依赖注意力权重来判断 Token 重要性,这一路线暗藏两个致命缺陷:
随着高分辨率图像理解与长视频处理需求的爆发式增长,大型视觉语言模型(LVLMs)所需处理的视觉 Token 数量急剧膨胀,推理效率成为落地部署的核心瓶颈。Token 压缩是缩短序列、提升吞吐的直接手段,但现有方法普遍依赖注意力权重来判断 Token 重要性,这一路线暗藏两个致命缺陷:
吉林大学&微软亚洲研究院等团队提出MindPower框架,让机器人像人一样理解他人想法并主动帮忙,构建了首个以机器人为中心的心智推理评测体系,通过六层推理链条,让AI不仅看懂场景,更能推断意图、做出决策、执行动作,显著提升助人能力。
当 Transformer 席卷计算机视觉领域,高分辨率图像、超长序列任务带来的算力与显存瓶颈愈发凸显:标准 Softmax 注意力的二次复杂度,让 70K+token 的超分辨率任务直接显存爆炸,高分辨率图像分割、检测的推理延迟居高不下。
老黄:科技公司的算力焦虑,有 1 万亿刀那么大。北京时间今天凌晨两点,英伟达 GTC 大会在加州圣何塞正式召开,这回的 Keynote 注定要被各大公司 CEO 不断引用了。
3月16日阿里内部围绕“Token”链路,重新梳理整合了业务架构,并成立了新事业群:Alibaba Token Hub(ATH)事业群,阿里巴巴CEO吴泳铭将直接负责这个事业群。这也是自阿里内部电商事业群整合以来,最重要的一次架构调整。
投资界获悉,月之暗面Kimi正以投前估值180亿美元(约合人民币1200亿),进行新一轮10亿美元融资。大约一个月前,Kimi刚刚完成逾7亿美元融资,彼时估值100亿美元;而在去年底一轮5亿美元融资中,其估值还只是43亿美元。
今天上午,AI Agent创企MuleRun(骡子快跑)团队发布MuleRun 2.0,该产品是一个可自我进化的个人AI Agent助手。Mulerun创始人兼CEO陈宇森分享称,MuleRun的上手门槛更低,可以在给定目标的前提下主动工作,具有0门槛使用、极高安全性、稳定性、售后完善、自进化能力、24小时在线、主动性等优势。
就在刚刚,Moonshot AI(月之暗面)发布了一项足以撼动 Transformer 底层的研究:《Attention Residuals》。海外科技大 V,谷歌高级AI产品经理 Shubham Saboo 直接开启了“高赞”模式:“他们触碰了那个十年没人敢碰的部分。”
一睁眼!陈天桥带队的大模型黑马MiroMind再度满血归来—— 正式发布新一代重型推理智能体:MiroThinker-1.7和MiroThinker-H1。
中国教育界的OpenClaw来了!刚刚,清华教育学院、计算机系联合团队正式开源多智能体AI课堂OpenMAIC:AI老师语音授课,AI同学举手讨论,交互式课程一键生成。