一种运动与外观解耦的多尺度交互与语义校准视频摘要方法

申请号：CN202511298065

申请日期：2025-09-11

公开号：CN120812373B

公开日期：2025-12-05

类型：发明专利

摘要

本发明公开了一种运动与外观解耦的多尺度交互与语义校准视频摘要方法，属于计算机视觉技术领域。所述方法包括：对输入视频帧序列分别提取多尺度运动特征和外观特征，得到对应特征金字塔；将运动特征金字塔和外观特征金字塔输入视频摘要模型，通过模型预测初始帧级重要性分数序列；再通过双向LSTM捕捉帧间时序依赖，强化关键动作边界的分数，并通过多样性惩罚减少冗余帧，输出优化后的帧级重要性分数序列；最后通过施加时间间隔约束优化帧分布，经通过贪婪算法选择关键帧生成视频摘要。本方法有效解决现有视频摘要方法中运动与外观特征耦合、多尺度表征不足、特征融合机制简单、模态权重失衡问题，在SumMe和TVSum基准数据集上的实验结果证明了其有效性。

技术关键词

视频摘要方法运动特征特征金字塔融合特征语义向量独立语义多尺度生成视频摘要初始重要性分数 Sigmoid函数序列贪婪算法跨模态关键帧视频摘要模型校准器