基于多模态扩散的长视频角色场景解耦生成方法及系统

申请号：CN202511067463

申请日期：2025-07-31

公开号：CN120583276B

公开日期：2025-09-30

类型：发明专利

摘要

基于多模态扩散的长视频角色场景解耦生成方法及系统，涉及图像处理技术领域，包括：S1、通过SigLIP编码器与DINOv2编码器合成角色与场景的高级特征；S2、将高级特征进行跨模态特征融合得到联合特征并压缩得到紧凑向量；S3、根据文本提示生成文本特征；S4、将输入视频通过因果3D卷积编码器生成潜在编码，通过线性投影矩阵后与内存状态拼接降维得到分段潜在向量序列；S5、分段潜在向量序列通过改进的3D‑UNet进行解耦感知生成，然后确定性采样后反卷积上采样重建得到RGB视频分段序列；本发明解决长视频生成中动态控制粗糙、生成长度受限与资源消耗过高的关键问题，显著提升了生成视频的质量和效率。

技术关键词

高层语义特征纹理特征卷积编码器分段视频段卷积解码器路径特征内存场景序列身份生成噪声图像关键帧文本运动特征