摘要
本发明提供一种视频通话用户体验质量评价方法、装置、设备及介质,应用于视频通话场景,用于评价被呼叫端在视频通话中的用户体验质量,该方法包括:从视频通话的被呼叫端的目标视频中获取帧图像序列;通过多种特征提取器,从帧图像序列中提取出第一多模态特征,通过跨模态多感知特征融合器,对第一多模态特征进行融合,得到第一多感知特征;通过质量评价模型,根据第一多感知特征,对目标视频进行评价,得到预测分数;质量评价模型是以在真实移动网络条件下的、同一呼叫端与不同被呼叫端之间的多个视频通话的真实视频通话数据为样本数据,对神经网络进行训练得到的,样本数据携带主观评分,主观评分为多名专家对真实视频通话数据的主观评分。