说话对象检测方法、装置、电子设备及存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
说话对象检测方法、装置、电子设备及存储介质
申请号:CN202411831610
申请日期:2024-12-12
公开号:CN119810884B
公开日期:2025-10-31
类型:发明专利
摘要
本申请实施例提供了一种说话对象检测方法、装置、电子设备及存储介质,属于人工智能技术领域。其中方法包括:获取会话场景的视频数据和音频数据;根据视频数据获取人脸框序列,并在人脸框序列中提取唇部框序列;根据深度估计模型生成与人脸框序列对应的深度信息序列,并根据音频数据获取与人脸框序列对应的音频序列;根据音频序列和唇部框序列分别获取音频嵌入特征和视频嵌入特征;将深度信息序列分别与音频嵌入特征和视频嵌入特征进行加权融合,根据获得的深度融合音频特征和深度融合视频特征确定会话场景下的目标说话对象。通过所提供的方案,可自动定位会话视频中的说话对象,提高了工作效率,并减少了工作量。
技术关键词
嵌入特征 对象检测方法 序列 视频 音频特征 人脸检测算法 会话 脸部关键点 深度图 深度值 场景 数据 对象检测装置 传输模块 坐标 电子设备