基于多模态扩散的长视频角色场景解耦生成方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于多模态扩散的长视频角色场景解耦生成方法及系统
申请号:CN202511067463
申请日期:2025-07-31
公开号:CN120583276B
公开日期:2025-09-30
类型:发明专利
摘要
基于多模态扩散的长视频角色场景解耦生成方法及系统,涉及图像处理技术领域,包括:S1、通过SigLIP编码器与DINOv2编码器合成角色与场景的高级特征;S2、将高级特征进行跨模态特征融合得到联合特征并压缩得到紧凑向量;S3、根据文本提示生成文本特征;S4、将输入视频通过因果3D卷积编码器生成潜在编码,通过线性投影矩阵后与内存状态拼接降维得到分段潜在向量序列;S5、分段潜在向量序列通过改进的3D‑UNet进行解耦感知生成,然后确定性采样后反卷积上采样重建得到RGB视频分段序列;本发明解决长视频生成中动态控制粗糙、生成长度受限与资源消耗过高的关键问题,显著提升了生成视频的质量和效率。
技术关键词
高层语义特征 纹理特征 卷积编码器 分段 视频段 卷积解码器 路径特征 内存 场景 序列 身份 生成噪声 图像 关键帧 文本 运动特征
系统为您推荐了相关专利信息
分布式光纤传感 预警方法 线路 动态门限 扰动结构
病害特征 作物病虫害 叶片边缘轮廓 图像分割 RANSAC算法
累积流量数据 汇流 搜索算法 计算机程序指令 网格
深度特征融合 数据 验证特征 深度学习模型 GPU并行计算
图像降噪方法 降噪模型 噪声强度 表达式 像素