AI资讯新闻榜单内容搜索-长视频

无损加速视觉语言模型推理！轻松剪掉视觉冗余Token｜腾讯AI Lab

多图像、长视频、细粒度感知正在让大型视觉语言模型（LVLM）变得越来越聪明，但也越来越“吃不消”：视觉Token数量的激增所带来的推理成本暴涨，正逐渐成为多模态智能扩展的最大算力瓶颈。

来自主题: AI技术研报

7445 点击 2025-07-05 19:00

虽然旋转位置编码（RoPE）及其变体因其长上下文处理能力而被广泛采用，但将一维 RoPE 扩展到具有复杂时空结构的视频领域仍然是一个悬而未决的挑战。

来自主题: AI技术研报

8828 点击 2025-07-04 10:44

尽管大型语言模型（LLMs）和大型视觉 - 语言模型（VLMs）在视频分析和长语境处理方面取得了显著进展，但它们在处理信息密集的数小时长视频时仍显示出局限性。

来自主题: AI技术研报

7351 点击 2025-06-30 14:34

如今的视觉语言模型 (VLM, Vision Language Models) 已经在视觉问答、图像描述等多模态任务上取得了卓越的表现。然而，它们在长视频理解和检索等长上下文任务中仍表现不佳。

来自主题: AI技术研报

7203 点击 2025-06-30 10:24

普林斯顿大学和Meta联合推出的新框架LinGen，以MATE线性复杂度块取代传统自注意力，将视频生成从像素数的平方复杂度压到线性复杂度，使单张GPU就能在分钟级长度下生成高质量视频，大幅提高了模型的可扩展性和生成效率。

来自主题: AI技术研报

8056 点击 2025-06-19 12:07

本文第一作者为前阿里巴巴达摩院高级技术专家，现一年级博士研究生满远斌，研究方向为高效多模态大模型推理和生成系统。通信作者为第一作者的导师，UTA 计算机系助理教授尹淼。尹淼博士目前带领 7 人的研究团队，主要研究方向为多模态空间智能系统，致力于通过软件和系统的联合优化设计实现空间人工智能的落地。

来自主题: AI技术研报

9643 点击 2025-06-09 14:51

智源研究院发布开源模型Video-XL-2，显著提升长视频理解能力。该模型在效果、处理长度与速度上全面优化，支持单卡处理万帧视频，编码2048帧仅需12秒。

来自主题: AI技术研报

7643 点击 2025-06-03 17:24

长视频理解是多模态大模型关键能力之一。尽管 OpenAI GPT-4o、Google Gemini 等私有模型已在该领域取得显著进展，当前的开源模型在效果、计算开销和运行效率等方面仍存在明显短板。

来自主题: AI技术研报

7711 点击 2025-06-03 14:44

在视觉语言模型（Vision-Language Models，VLMs）取得突破性进展的当下，长视频理解的挑战显得愈发重要。以标准 24 帧率的标清视频为例，仅需数分钟即可产生逾百万的视觉 token，这已远超主流大语言模型 4K-128K 的上下文处理极限。

来自主题: AI技术研报

6363 点击 2025-05-13 08:54

目前的视频生成技术大多是在短视频数据上训练，推理时则通过滑动窗口等策略，逐步扩展生成的视频长度。然而，这种方式无法充分利用视频的长时上下文信息，容易导致生成内容在时序上出现潜在的不一致性。

来自主题: AI技术研报

7029 点击 2025-04-23 14:19