一种通过增量信息感知增强视频描述生成的方法及系统

申请号：CN202510730429

申请日期：2025-06-03

公开号：CN120640092A

公开日期：2025-09-12

类型：发明专利

摘要

本发明提出了一种通过增量信息感知增强视频描述生成的方法及系统。该方法通过构建包含语义增量信息感知模型和结构增量信息感知模型的视频描述生成模型，分别捕捉视频中的详细语义信息和关键结构内容，量化所有描述的语义和结构信息，并在训练过程中利用低信息量描述监督基本编码器以捕获基础视频信息，利用高信息量描述共同监督基本编码器和增量信息编码器，从而引导模型感知和利用从基础信息到更丰富信息的增量信息。在推理阶段，通过融合语义增量信息感知模型和结构增量信息感知模型来补偿语义增量信息感知模型在理解视频主要信息方面的局限性，提高了视频描述生成的准确率和语义丰富度。

技术关键词

信息编码器解码器融合语义视频帧生成结构输入结构模块全局特征提取基础序列阶段参数周期数据文本

系统为您推荐了相关专利信息

基于关键步骤的人类技能视频生成方法、设备及介质

视频生成方法图像生成器视频生成模型人类解码器

一种基于参考图像引导的工业品缺陷样本可控生成方法

生成方法编码模块图像块特征样本随机噪声

一种正负样本算法相结合的输电线高空异常检测方法

异常检测方法样本算法坐标列表

游戏辅助方法与装置

游戏图像文本游戏辅助方法视频帧时间段