仅保留35% Token,性能反超原模型!快手可灵等用视觉信息引导音频压缩,推理时间直降42%

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
仅保留35% Token,性能反超原模型!快手可灵等用视觉信息引导音频压缩,推理时间直降42%
7806点击    2026-03-11 15:06

一段几十秒的音视频,上万Token,一半以上是冗余——Omni-LLM的计算浪费,比想象中更严重。


快手可灵团队、中科院自动化所和南京大学的最新研究,给出了一个解决方案:OmniSIFT


这套模态非对称Token压缩框架的核心洞察是:视频信息远比音频密集,让视频“带着”音频走。


具体来说,先通过时空联合剪枝压缩视频Token,再用筛选后的视觉特征去引导音频Token的选择——与当前视觉内容高度相关的声音被保留,无关背景音直接过滤。


实验结果令人惊喜:只保留35%的多模态Token,模型性能不仅没掉,反而在部分基准上超过全量输入。推理时间减少42%,GPU显存占用同步下降。


仅保留35% Token,性能反超原模型!快手可灵等用视觉信息引导音频压缩,推理时间直降42%


OmniSIFT的核心思想是利用音视频之间的非对称依赖关系:先通过视频信息找到关键视觉线索,再据此筛选最相关的音频Token,从而在大幅压缩序列长度的同时保留关键语义信息,剔除大量重复画面或无关声音Token。


当“全模态”遇上“计算瓶颈”


随着多模态模型不断向“全模态”演进,Gemini-2.5-Pro、Qwen2.5-Omni等模型已经能够同时理解视频与音频信息,让AI逐渐具备类似人类的综合感知能力。


然而,这种能力的代价同样巨大。一段几十秒的视频在进入模型之前,往往会被编码成成千上万个Token,但其中大量Token都是冗余的。注意力可视化实验结果进一步揭示了这一问题。如图所示,在Qwen2.5-Omni-7B的多模态推理过程中,只有少量Token获得较高的注意力权重,而大部分Token的贡献非常有限。这意味着,大量计算资源其实消耗在冗余信息上。


仅保留35% Token,性能反超原模型!快手可灵等用视觉信息引导音频压缩,推理时间直降42%


尽管研究者已经提出了一些视觉Token压缩方法,但在音频+视频的全模态场景下,这些方案仍然面临挑战。一方面,视频包含大量空间与时间冗余;另一方面,音频对时间连续性高度敏感。更复杂的是,两种模态之间还存在紧密的语义关联,简单的统一压缩策略往往会破坏关键线索。


正是在这样的背景下,OmniSIFT被提出。该方法从模态冗余结构本身出发,通过非对称的压缩策略,在保持关键语义信息的同时显著减少多模态Token数量。


OmniSIFT的高效“瘦身”秘籍


为了解决全模态模型中音视频信息量极度不对称、冗余度极高的问题,OmniSIFT提出了一种模态非对称的Token压缩框架。与传统方法分别压缩各模态不同,OmniSIFT将视频与音频的信息结构结合起来进行协同筛选。如图2所示,该框架由时空视频剪枝模块(STVP)和视觉引导音频选择模块(VGAS)组成。


二者协同工作,使模型在大幅减少Token数量的同时,依然能够保留关键语义信息。如图3所示,在“比分从27–26变为28–26时发生了什么?”这一问题中,OmniSIFT能够保留比分牌变化这一关键视觉线索,并结合对应的音频片段,从而正确推断出比分变化的原因。相比之下,传统方法在压缩过程中往往会丢失这些关键信息,导致模型产生错误理解。


仅保留35% Token,性能反超原模型!快手可灵等用视觉信息引导音频压缩,推理时间直降42%


1. STVP(视频压缩)


视频端:时空联合剪枝


在多模态输入中,视频Token往往占据绝大多数。为此,OmniSIFT设计了时空视频剪枝模块(STVP),从空间和时间两个维度识别冗余信息。


Intra-Frame Pruning(帧内剪枝)


在单帧内部识别背景区域或重复纹理,只保留具有语义价值的视觉特征。


Inter-Frame Pruning(帧间剪枝)


对连续帧之间的视觉相似度进行分析。当相邻帧变化较小时,系统会自动丢弃重复帧,从而减少时间维度上的冗余。


通过交替进行帧内与帧间剪枝,STVP能够在保证视觉语义完整性的同时,大幅压缩视频Token数量。


2. VGAS(音频压缩)


音频端:以“视”驭“听”


与视频不同,音频信息对时间连续性更加敏感。如果简单丢弃音频Token,往往会破坏语义完整性。


因此,OmniSIFT提出了视觉引导音频选择模块(VGAS)。该模块利用已经筛选后的视觉特征,通过跨模态注意力机制评估每个音频Token的重要性。


与当前视觉内容高度相关的音频片段(例如说话声、碰撞声或关键环境音)会被优先保留,而无关背景音则被过滤。


为了使离散的Token选择过程能够参与训练,研究者还引入Straight-Through Estimator(STE),从而实现端到端的可微优化。这使得压缩模块能够在训练过程中逐渐学习哪些信息对模型最重要。


仅保留35% Token,性能反超原模型!快手可灵等用视觉信息引导音频压缩,推理时间直降42%


极致压缩下的“全能”表现


为了验证OmniSIFT的实际效果,研究团队在Qwen2.5-Omni-7BQwen2.5-Omni-3B上进行了系统评测。实验覆盖了多个具有代表性的音视频理解benchmark,包括OmniVideoBench, DailyOmni, WorldSense. Video-MME和video-SALMONN-2 testset为了保证公平比较,研究者使用完全相同的训练配置对全量Token输入模型进行微调作为baseline,并与多种现有Token压缩方法进行对比。


实验结果揭示了一个有趣的现象:在多模态推理过程中,超过65%的Token实际上是冗余的。即使在大幅压缩Token数量的情况下,模型依然能够保持接近甚至超过全量输入的性能。


35%保留率,近乎“无损”的性能表现


实验结果如表所示。在仅保留35% Token的情况下,OmniSIFT在多个音视频理解任务上仍然保持甚至超过了全量输入模型的表现。例如,在WorldSense基准上,OmniSIFT在Qwen2.5-Omni-7B上取得50.0的成绩,高于full-token baseline的49.7


在更严格的25% Token保留率设置下,OmniSIFT依然能够维持稳定性能,并整体优于OmniZip、DyCoke等压缩方法。这表明该方法能够有效去除大量冗余信息,同时保留关键语义线索。


仅保留35% Token,性能反超原模型!快手可灵等用视觉信息引导音频压缩,推理时间直降42%


深度消融:为什么要“视觉引导”?


为了分析各模块的作用,研究者对OmniSIFT进行了多组消融实验,结果如图所示。


当移除STVP的空间剪枝模块时间剪枝模块时,模型性能均出现明显下降。这说明视频中的空间冗余和时间冗余都需要被同时建模。


更重要的是,当将视觉引导的音频Token选择(VGAS)替换为音频自身的注意力剪枝时,DailyOmni上的得分从73.2降至69.3。这一结果表明:在全模态理解任务中,视觉线索能够显著帮助模型识别重要音频信息


仅保留35% Token,性能反超原模型!快手可灵等用视觉信息引导音频压缩,推理时间直降42%


效率提升:推理吞吐量显著提升


除了性能保持之外,OmniSIFT在推理效率方面同样表现突出。由于Token数量大幅减少,模型的计算开销明显降低。如表所示,在35% Token保留率下,OmniSIFT在Qwen2.5-Omni-7B上将总推理时间从15097秒降低至8756秒,减少约42%,同时GPU显存占用也有所下降。尽管计算开销显著减少,模型准确率依然保持稳定,甚至略有提升。这说明OmniSIFT在计算效率与模型性能之间实现了良好的平衡


仅保留35% Token,性能反超原模型!快手可灵等用视觉信息引导音频压缩,推理时间直降42%


综合来看,OmniSIFT不仅能够在极高压缩率下保持模型性能,还显著降低了推理开销,为Omni-modal大模型在实时交互和端侧部署等场景中的应用提供了新的可能。


总结


随着Omni-LLM逐渐成为多模态模型的重要发展方向,如何在有限算力下高效处理音视频信息,正在成为新的关键问题。


OmniSIFT通过模态非对称的Token压缩策略,在仅保留少量关键Token的情况下依然保持了强大的多模态理解能力,为全模态模型的高效推理提供了一种新的思路。它也揭示了一个简单却深刻的事实:真正决定模型理解能力的,并不是Token的数量,而是信息的密度。


论文标题:

OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models

作者机构:

中科院自动化所,快手可灵,南大等

论文链接:

https://arxiv.org/abs/2602.04804


文章来自于“量子位”,作者 “OmniSIFT团队”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner