基于音视频特征融合的视频质量评价方法、装置和设备

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于音视频特征融合的视频质量评价方法、装置和设备
申请号:CN202411104706
申请日期:2024-08-13
公开号:CN118646929B
公开日期:2024-10-29
类型:发明专利
摘要
本发明的实施例提供了基于音视频特征融合的视频质量评价方法、装置和设备。所述方法包括获取视频段的关键帧,输入到Transformer编码器中,得到视觉特征;从音频段获取GAF频谱图,提取对应的频谱信息,输入卷积模块,输出音频特征;将视觉特征输入改进的Transformer编码器,得到视觉语义特征;将音频特征输入ResNet18卷积神经网络,得到音频语义特征;将视觉语义特征和音频语义特征进行融合后输入全连接层,输出质量评价分数,进行质量评价。以此方式,可以解决现有技术中对音频和视频特征特征提取不准确,忽略交互作用,仅进行简单融合获取整体质量评价分数,无法获取较好的性能的技术问题。
技术关键词
语义特征 融合语义信息 音频特征 视觉特征 编码器 听觉 视频段 评价方法 网络结构 卷积模块 对音视频 关键帧 评价装置 计算机 处理器