一种基于音频定位的会议画面显示方法及装置

申请号：CN202510616548

申请日期：2025-05-14

公开号：CN120602614A

公开日期：2025-09-05

类型：发明专利

摘要

本申请属于视频会议技术领域，公开了一种基于音频定位的会议画面显示方法及装置，该方法包括：获取摄像机采集的会议视频数据并提取当前图像帧；检测当前图像帧中的人像和对应的人像位置；判断是否接受到麦克风阵列采集的音频数据；若是，则根据音频数据进行声源定位，得到声源方位；根据声源方位在当前图像帧的人像位置中确定发言人位置；根据发言人位置生成调焦指令并发送给摄像机。本申请可以达到能够实现对发言人的自动框选和聚焦，无需人为手动操作，大大提高了会议画面聚焦发言人的及时性和准确性。

技术关键词

画面显示方法发言人唇动识别模型麦克风阵列采集音频关键点图像画面显示装置机器学习模型摄像机人工神经网络模型序列视频会议技术数据调焦模块处理器分割算法识别区