摘要
本发明公开了一种基于图模型和多尺度注意力机制的视频摘要方法,本发明涉及计算机视觉技术领域。该基于图模型和多尺度注意力机制的视频摘要方法,通过引入多尺度注意力机制,将局部帧间关系的建模与全局长期依赖关系的建模分开进行,有效降低计算过程中注意力权重的偏差,同时,采用GATv2图注意力机制提取局部帧间的关联性,使用CLS标识符聚合全局特征信息,确保全局与局部信息的高效融合,并且利用非极大值抑制去除冗余帧,进一步提升视频摘要的质量,避免位置信息注入带来的冗余问题,实现更精准的帧间关系建模与视频内容摘要。