摘要
本发明公开了一种基于结构化时空稀疏性的快速视频生成方法及系统,属于计算机视觉与人工智能领域。本发明系统性分析揭示了视频扩散模型中注意力矩阵所固有的结构化且异构的稀疏模式,其核心在于:1)自适应分块策略,通过动态的图块分组来近似多样的空间交互模式;2)时序变化的窗口,根据帧间距离动态调整稀疏级别;3)自动化的配置搜索算法,在保持关键注意力路径的同时优化稀疏模式。本发明通过离线预计算优化的稀疏注意力掩码,在推理阶段直接应用于注意力计算,从而在保持与全注意力基线相当的视觉质量的同时,在单GPU上实现1.8至2.5倍的注意力计算加速,为高效的长视频生成提供了全新的解决路径。