一种基于跨模态语义映射的图文视频生成方法及系统

申请号：CN202510812784

申请日期：2025-06-18

公开号：CN120730138A

公开日期：2025-09-30

类型：发明专利

摘要

本发明提供一种基于跨模态语义映射的图文视频生成方法及系统，涉及数据处理技术领域，所述方法包括：步骤1，输入产品描述文本，执行层级语义解耦，提取核心对象名词、属性形容词及场景副词，构建分层级结构化语义树；步骤2，基于分层级结构化语义树，执行细粒度修饰语义的区域探索，识别属性形容词或场景副词的关联区域，为每个关联区域生成语义适配修正因子。本发明通过层级语义解耦、区域语义映射、跨模态特征融合及动态时空校准，实现产品描述文本到语义精准、时序连贯的动态视频自动化生成，确保视觉效果与文本语义一致。

技术关键词

语义视频生成方法跨模态层级关键帧节点图文纹理坐标因子风格优化轮廓动态场景注意力机制标识核心材质特征视觉