用于根据文本提示生成合成视频数据的方法和设备

申请号：CN202510310990

申请日期：2025-03-17

公开号：CN120676111A

公开日期：2025-09-19

类型：发明专利

摘要

本发明涉及一种用于根据文本提示生成合成视频数据的方法，特别是用于提供用于训练和/或测试和/或验证和/或确认机器学习模型的视频数据，该方法包括：‑提供(S1)描述要生成的视频数据的内容的输入文本提示；‑通过大语言模型将所提供的文本提示分解(S2)为至少两个文本子提示；‑为至少两个文本子提示中的每一个生成(S3)文本嵌入；以及‑基于所生成的文本嵌入，通过视频扩散模型生成(S4)合成视频数据。

技术关键词

注意力文本视频机器学习模型大语言模型数据变换器图像编码器视觉特征计算机因子动态介质网络模式