摘要
本申请实施例提供了一种说话对象检测方法、装置、电子设备及存储介质,属于人工智能技术领域。其中方法包括:获取会话场景的视频数据和音频数据;根据视频数据获取人脸框序列,并在人脸框序列中提取唇部框序列;根据深度估计模型生成与人脸框序列对应的深度信息序列,并根据音频数据获取与人脸框序列对应的音频序列;根据音频序列和唇部框序列分别获取音频嵌入特征和视频嵌入特征;将深度信息序列分别与音频嵌入特征和视频嵌入特征进行加权融合,根据获得的深度融合音频特征和深度融合视频特征确定会话场景下的目标说话对象。通过所提供的方案,可自动定位会话视频中的说话对象,提高了工作效率,并减少了工作量。