一种基于图模型和多尺度注意力机制的视频摘要方法

申请号：CN202510153403

申请日期：2025-02-12

公开号：CN120050491A

公开日期：2025-05-27

类型：发明专利

摘要

本发明公开了一种基于图模型和多尺度注意力机制的视频摘要方法，本发明涉及计算机视觉技术领域。该基于图模型和多尺度注意力机制的视频摘要方法，通过引入多尺度注意力机制，将局部帧间关系的建模与全局长期依赖关系的建模分开进行，有效降低计算过程中注意力权重的偏差，同时，采用GATv2图注意力机制提取局部帧间的关联性，使用CLS标识符聚合全局特征信息，确保全局与局部信息的高效融合，并且利用非极大值抑制去除冗余帧，进一步提升视频摘要的质量，避免位置信息注入带来的冗余问题，实现更精准的帧间关系建模与视频内容摘要。

技术关键词

视频摘要方法序列多尺度注意力机制非极大值抑制方法特征提取模块镜头计算机视觉技术背包算法关键帧冗余视频帧分支节点关系建模抑制算法令牌