一种轻量化的文本生成视频方法和装置

申请号：CN202510016660

申请日期：2025-01-06

公开号：CN119893237A

公开日期：2025-04-25

类型：发明专利

摘要

本发明公开了一种轻量化的文本生成视频方法和装置，该方法结合了提示词学习和时序感知的DDIM反演技术，通过引入共享提示词令牌以提高编辑灵活性，同时通过非共享的帧特定令牌来强化跨帧一致性，同时，采用双边滤波的时序感知的DDIM反演进一步优化了视频帧之间的连贯性，以最低的训练成本提升基于扩散算法的文本生成图像视频编辑性能。本方法在无需进行额外训练的情况下，提高文本生成视频生成框架中的时序一致性、语义对齐、帧间一致性以及视频质量。

技术关键词

令牌时序视频装置适配器滤波器模块文本生成图像像素语义强度随机噪声参数度函数序列扩散算法