一种面向第一人称视角的交互说话人检测方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种面向第一人称视角的交互说话人检测方法
申请号:CN202510136512
申请日期:2025-02-07
公开号:CN120183011A
公开日期:2025-06-20
类型:发明专利
摘要
本发明公开了一种面向第一人称视角的交互说话人检测方法,用于从第一人称视角识别与摄像佩戴者互动的说话人。首先,通过对输入的第一人称视频流进行预处理,提取头部裁剪、嘴唇裁剪及音频信号。然后,采用视觉说话人目标识别模块分析头部方向和嘴唇运动特征,并行共享权重音频编码器从干净及混合音频中提取鲁棒音频特征,同时通过视觉模态缺失感知模块动态评估视觉模态的可用性,调整对多模态特征的依赖;最后,经过多模态特征融合模块,综合分析视觉与音频信息,生成“是否对摄像佩戴者讲话”的分类结果。本发明通过对真实场景的考虑和模块设计,在复杂场景下具有显著的鲁棒性和精确性,可有效解决视觉模态缺失和背景噪声干扰问题。
技术关键词
人检测方法 音频编码器 视觉 音频特征 视角 图像块特征 多模态特征融合 运动特征 注意力 语音 编码图像块 数据 嵌入特征 矩阵 识别模块 头部特征 Softmax函数