一种基于视觉标识符的视频生成方法

申请号：CN202511038269

申请日期：2025-07-28

公开号：CN120935377A

公开日期：2025-11-11

类型：发明专利

摘要

本发明公开了一种基于视觉标识符的视频生成方法，属于视频生成技术领域。该方法包括以下步骤：获取输入的视频数据，提取初始的时空特征；初始化可学习的基向量作为视觉标识符，并将其与初始的时空特征各自进行调制；将调制后的视觉标识符和时空特征拼接形成扩展特征序列并对其进行优化，生成视频帧或视频序列后再与视频数据拼接，形成新的视频数据，不断迭代重复，最终输出高质量的视频序列。本发明通过引入视觉标识符，能够在视频生成过程中有效捕捉和利用视频的全局信息，精确调节时空特征，使得生成的视频在空间和时间维度上具有更好的连贯性和一致性。本发明能够提升视频生成质量，优化时空特征的建模，降低视频生成模型的开发成本。

技术关键词

视觉标识符视频生成方法序列多层感知机注意力机制数据参数计算机电子设备视频生成技术视频生成模型感知损失函数高维特征向量存储计算机程序计算机程序产品处理器可读存储介质存储器解码器

系统为您推荐了相关专利信息

一种基于大数据的高压线路故障巡检方法

高压线路故障无人机巡检路径巡检路径规划节点巡检方法

目标定位方法、存储介质、程序产品、电子设备及车辆

对象图像采集装置定位方法坐标系计算机程序产品

基于预训练大语言模型的源荷小样本时序预测方法、系统、装置及存储介质

大语言模型时序预测方法时序预测装置分词标记

基于通道感知协同特征增强的跨模态行人重识别方法

重识别方法通道模块语义可见光图像

图像检测方法、训练方法、装置、电子设备、介质及程序产品

输出特征样本图像检测方法图像块检测训练装置