一种基于跨模态协同学习的视频生成方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于跨模态协同学习的视频生成方法及系统
申请号:CN202511324520
申请日期:2025-09-17
公开号:CN120835216A
公开日期:2025-10-24
类型:发明专利
摘要
本发明公开了一种基于跨模态协同学习的视频生成方法及系统,属于视频生成与多模态数据处理领域。接收多模态输入并提取多模态特征;通过改进的条件扩散模型处理多模态特征,生成视频序列;改进的条件扩散模型的每一个DiT块中包括并列设置的相机感知注意力模块和解耦交叉注意力模块,两个注意力模块均输入由图像序列潜变量处理后得到的视频潜特征,输出加权后代替原始条件扩散模型中的交叉注意力模块的输出;采用低秩自适应技术对改进的条件扩散模型进行轻量化微调,并在训练过程中引入多阶段课程学习策略。实验结果表明,本发明在多任务视频生成中表现出优异性能,能够实现高质量、精细化的场景主体和摄像机运动联合控制。
技术关键词
视频生成方法 注意力 相机 跨模态 多模态特征 全局视觉特征 运动轨迹信息 生成视频序列 模块 多阶段 语义特征 图像解码器 图像编码器 矩阵 文本 变量