一种面向第一人称视角的交互说话人检测方法

申请号：CN202510136512

申请日期：2025-02-07

公开号：CN120183011A

公开日期：2025-06-20

类型：发明专利

摘要

本发明公开了一种面向第一人称视角的交互说话人检测方法，用于从第一人称视角识别与摄像佩戴者互动的说话人。首先，通过对输入的第一人称视频流进行预处理，提取头部裁剪、嘴唇裁剪及音频信号。然后，采用视觉说话人目标识别模块分析头部方向和嘴唇运动特征，并行共享权重音频编码器从干净及混合音频中提取鲁棒音频特征，同时通过视觉模态缺失感知模块动态评估视觉模态的可用性，调整对多模态特征的依赖；最后，经过多模态特征融合模块，综合分析视觉与音频信息，生成“是否对摄像佩戴者讲话”的分类结果。本发明通过对真实场景的考虑和模块设计，在复杂场景下具有显著的鲁棒性和精确性，可有效解决视觉模态缺失和背景噪声干扰问题。

技术关键词

人检测方法音频编码器视觉音频特征视角图像块特征多模态特征融合运动特征注意力语音编码图像块数据嵌入特征矩阵识别模块头部特征 Softmax函数