AI视频生成革命!MIT领衔豪华天团让生成效率暴涨370%,成本直降4.4倍

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AI视频生成革命!MIT领衔豪华天团让生成效率暴涨370%,成本直降4.4倍
6370点击    2025-07-08 11:40

刷到1分钟AI短视频别只顾着点赞,背后的算力成本让人惊叹。MIT和英伟达等提出的径向注意力技术让长视频生成成本暴降4.4倍,速度飙升3.7倍,AI视频的未来已来!


刷到1分钟的AI生成短视频时,你可能想象不到背后的算力成本。


传统的视频扩散模型,处理视频时采用密集注意力机制。


这种方法虽然能保证画质,但计算量大得吓人,生成10秒视频就要烧掉数千元算力费用,随着视频长度增加,算力需求呈指数级飙升。


最近,MIT英伟达等研究人员发明的「径向注意力」技术,不仅让长视频生成速度提升3.7倍,还能把训练成本砍掉4.4倍。


AI视频生成革命!MIT领衔豪华天团让生成效率暴涨370%,成本直降4.4倍


论文链接:https://www.arxiv.org/abs/2506.19852


代码链接:


https://github.com/mit-han-lab/radial-attention/


径向注意力


在扩散模型的加持下,高质量视频生成逐渐从科幻变成现实。


但视频的时间维度给算力增加了不少负担,导致训练和推理长视频的成本飙升。


生成10秒视频就要烧掉数千元算力费用,价格之高令人望而却步。


对此,团队从热力学借了点灵感:「没有任何传播是无损的;信号、影响、注意力都会随着距离衰减。」


他们发现视频扩散模型里的注意力分数同样遵循这个规律——softmax后的权重随着token间的空间和时间距离递减。


这种「时空能量衰减」现象与自然界信号的物理衰减不谋而合。


这会不会就是视频生成降本增效的关键?


为进一步证实这种猜想,团队提出了「径向注意力」(Radial Attention):一种计算复杂度仅为O(nlog n)的稀疏注意力机制。


区别于之前SVG每次推理对空间/时间注意力进行动态选择,径向注意力用的是一种统一且高效的静态掩码。


这种掩码把空间和时间注意力合二为一,带来了更灵活、更快的长视频生成体验。


AI视频生成革命!MIT领衔豪华天团让生成效率暴涨370%,成本直降4.4倍


而且,这种简洁的静态注意力掩码让每个token只关注附近空间的邻居。随着时间距离的拉长,注意力窗口逐渐收缩。


相比传统的O (n²)密集注意力,径向注意力不仅大幅提升了计算效率,还比线性注意力拥有更强的表达能力。


在这项注意力机制创新的加持下,高质量视频生成变得更快、更长。


训练和推理的资源消耗极大地降低,为视频扩散模型打开了新的可能。


AI视频生成革命!MIT领衔豪华天团让生成效率暴涨370%,成本直降4.4倍


效果有多惊艳?实测数据来说话


研究团队在三个主流模型上做了测试:HunyuanVideo、Wan2.1-14B和Mochi 1,覆盖了不同参数规模的场景。


Mochi 1可以生成长达5秒、480p分辨率、162帧的视频;HunyuanVideo可以生成长达5秒、720p分辨率、125帧的视频;Wan2.1-14B可以生成长达5秒、720p分辨率、81帧的视频。


AI视频生成革命!MIT领衔豪华天团让生成效率暴涨370%,成本直降4.4倍


速度提升1.9倍到3.7倍


在默认视频长度下(如HunyuanVideo的117帧),径向注意力能把推理速度提升1.9倍左右。


当视频长度扩展到4倍时,速度提升更明显:从2895秒(近50分钟)降到781秒(约13分钟),足足快了3.7倍!


以前一小时才能生成的视频,现在喝杯咖啡的功夫就搞定了。


表1展示了在HunyuanVideo和Wan2.1-14B的默认生成长度下,径向注意力与三个强稀疏注意力基线的比较。


AI视频生成革命!MIT领衔豪华天团让生成效率暴涨370%,成本直降4.4倍


在相同的计算预算(以TFLOPs衡量)下,径向注意力保留了密集注意力的视频质量,同时在相似性指标(PSNR、SSIM、LPIPS)上始终优于STA和PA,并与SVG的质量相匹配。


AI视频生成革命!MIT领衔豪华天团让生成效率暴涨370%,成本直降4.4倍


在单个H100上,径向注意力为HunyuanVideo和Wan 2.1分别实现了1.9倍和1.8倍的端到端加速,与理论计算预算节省(1.8倍和1.7倍TFLOPs)相匹配。

尽管STA通过使用 FlashAttention-3(FA-3)产生了略高的加速,但视觉质量明显下降。


训练费用最多节省4.4倍


长视频生成最烧钱的其实是训练阶段。用径向注意力配合LoRA微调技术,训练成本直接大幅下降。


对于企业来说可是天大的好消息,以前做一个长视频项目可能要投入几十万,现在可能只需要几万块。


表2提供了2倍和4倍原始长度的视频生成结果。为了确保公平性,所有稀疏注意力基线使用相似的稀疏率。


AI视频生成革命!MIT领衔豪华天团让生成效率暴涨370%,成本直降4.4倍


当生成长视频时,未经进一步调优的原始模型表现出显著的质量退化,尤其是在4倍视频长度扩展时。


虽然RIFLEx在2倍长度外推时提高了性能,但其质量在此之后恶化,表明扩展能力有限。


空间和时间稀疏注意力受到有限感受野的影响;另一方面,LongLoRA和PA虽然具有全局感受野,但未能捕捉时空相关性,导致质量下降。


有趣的是,PA在微调后视觉奖励有很大提高,表明其原始稀疏模式与预训练的注意力分布不一致。


微调允许模型适应施加的注意力稀疏性,改善对齐和质量。


SANA将softmax注意力替换为线性注意力,需要大规模重新训练,并且在基于微调的视频长度扩展下失败。


相比之下,径向注意力实现了与LoRA微调密集注意力模型相当的质量。甚至在默认视频长度下,比预训练模型略微提高了视觉奖励。


AI视频生成革命!MIT领衔豪华天团让生成效率暴涨370%,成本直降4.4倍


由于O(nlog n)复杂度,径向注意力比原始密集注意力提供了显著的推理和训练加速,如表2和图2所示。


生成4倍长的视频时,可以节省高达4.4倍的训练成本,并实现高达3.7倍的推理加速。


最关键的是,速度和成本降下来了,画质还没缩水。


在HunyuanVideo上,径向注意力的PSNR值达到27.3,和原始模型基本持平;视觉奖励分数0.134,甚至比密集注意力的0.133还高一点点。


不只是快:

径向注意力的「隐藏技能」


很多技术升级都需要重新训练模型,但径向注意力不需要。


它可以直接应用在预训练好的模型上,通过简单的 LoRA 微调就能实现加速。


径向注意力的一个关键优势是与预训练的特定任务LoRA(如艺术风格迁移)的无缝兼容性,这对创作者太友好了。


如图8所示,将扩展长度LoRA与现有风格LoRA结合使用,在实现长视频生成的同时保留了视觉质量。


研究团队还观察到,合并LoRA生成的内容风格与原始LoRA略有不同。


这种差异主要归因于用于训练扩展长度LoRA的相对较小的数据集,这可能引入轻微的风格偏差,与风格LoRA相互作用。


在更全面的数据集上训练长度扩展LoRA,预计将有助于缓解这个问题。


以前生成1分钟的AI视频是很多中小团队不敢想的,现在径向注意力让这事变得可行了。


以后,我们可能会看到更多AI生成的长视频内容,像短视频平台的剧情号。


参考资料:


https://www.arxiv.org/abs/2506.19852


https://github.com/mit-han-lab/radial-attention/


文章来自于微信公众号“新智元”。


AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI短视频

【开源免费】MoneyPrinterTurbo是一个可以让用户通过关键词和文案就可以生成高清短视频的项目。

项目地址:https://github.com/harry0703/MoneyPrinterTurbo

在线使用:https://reccloud.cn(付费)

2
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner