基于音视频特征融合的视频质量评价方法、装置和设备

申请号：CN202411104706

申请日期：2024-08-13

公开号：CN118646929B

公开日期：2024-10-29

类型：发明专利

摘要

本发明的实施例提供了基于音视频特征融合的视频质量评价方法、装置和设备。所述方法包括获取视频段的关键帧，输入到Transformer编码器中，得到视觉特征；从音频段获取GAF频谱图，提取对应的频谱信息，输入卷积模块，输出音频特征；将视觉特征输入改进的Transformer编码器，得到视觉语义特征；将音频特征输入ResNet18卷积神经网络，得到音频语义特征；将视觉语义特征和音频语义特征进行融合后输入全连接层，输出质量评价分数，进行质量评价。以此方式，可以解决现有技术中对音频和视频特征特征提取不准确，忽略交互作用，仅进行简单融合获取整体质量评价分数，无法获取较好的性能的技术问题。

技术关键词

语义特征融合语义信息音频特征视觉特征编码器听觉视频段评价方法网络结构卷积模块对音视频关键帧评价装置计算机处理器