一种基于音频定位的会议画面显示方法及装置
# 热门搜索 #
大模型
人工智能
openai
融资
chatGPT
AITNT公众号
AITNT APP
AITNT交流群
搜索
首页
AI资讯
AI技术研报
AI监管政策
AI产品测评
AI商业项目
AI产品热榜
AI专利库
寻求报道
一种基于音频定位的会议画面显示方法及装置
申请号:
CN202510616548
申请日期:
2025-05-14
公开号:
CN120602614A
公开日期:
2025-09-05
类型:
发明专利
摘要
本申请属于视频会议技术领域,公开了一种基于音频定位的会议画面显示方法及装置,该方法包括:获取摄像机采集的会议视频数据并提取当前图像帧;检测当前图像帧中的人像和对应的人像位置;判断是否接受到麦克风阵列采集的音频数据;若是,则根据音频数据进行声源定位,得到声源方位;根据声源方位在当前图像帧的人像位置中确定发言人位置;根据发言人位置生成调焦指令并发送给摄像机。本申请可以达到能够实现对发言人的自动框选和聚焦,无需人为手动操作,大大提高了会议画面聚焦发言人的及时性和准确性。
技术关键词
画面显示方法
发言人
唇动识别模型
麦克风阵列采集
音频
关键点
图像
画面显示装置
机器学习模型
摄像机
人工神经网络模型
序列
视频会议技术
数据
调焦模块
处理器
分割算法
识别区