音视频多模态联合鉴伪方法、装置、电子设备及存储介质
申请号:CN202410962589
申请日期:2024-07-18
公开号:CN118711621A
公开日期:2024-09-27
类型:发明专利
摘要
本申请提供了音视频多模态联合鉴伪方法、装置、电子设备及存储介质,包括:对音频信息进行语音活动检测处理得到多个语音活动音频,再对多个语音活动音频依次进行音频特征提取、音频片段起终点检测以及唇动生成,确定出音频表征向量、活动音频起终点序列以及语音驱动生成的唇动序列;对图像信息进行唇动检测、唇动起终点检测以及人脸特征提取,确定出人脸唇动序列、唇动活动起终点序列以及人脸表征向量;对音频表征向量、活动音频起终点序列、语音驱动生成的唇动序列、人脸唇动序列、唇动活动起终点序列以及人脸表征向量进行一致性检测融合处理,确定出目标视频的真伪类别,从而实现了利用双模态信息间的相关性进行鉴伪工作提升了鉴伪算法的性能。
技术关键词
鉴伪方法
序列
人脸表征
终点
音视频
多模态
语音活动检测
一致性检测
音频特征提取
人脸特征提取
鉴伪装置
机器可读指令
边界检测方法
电子设备
图像处理模块