语音处理方法、装置及XR设备
# 热门搜索 #
大模型
人工智能
openai
融资
chatGPT
AITNT公众号
AITNT APP
AITNT交流群
搜索
首页
AI资讯
AI技术研报
AI监管政策
AI产品测评
AI商业项目
AI产品热榜
AI专利库
寻求报道
语音处理方法、装置及XR设备
申请号:
CN202511049200
申请日期:
2025-07-29
公开号:
CN120564748B
公开日期:
2025-11-07
类型:
发明专利
摘要
本发明提供一种语音处理方法、装置及XR设备,涉及语音处理技术领域,其中方法应用于扩展现实XR设备,包括:获取当前场景图像及用户的当前头部姿态数据;根据所述当前场景图像和所述当前头部姿态数据,确定目标注视对象;获取所述目标注视对象的实时音频数据和实时视频数据;通过语音分离模型,对所述实时音频数据和所述实时视频数据进行处理,确定所述目标注视对象的目标音频信号。本发明能够在不增加XR设备的额外硬件成本、且无需依赖目标说话对象的先验信息的前提下,准确地识别出目标说话对象的语音信号。
技术关键词
实时视频
对象
语音
数据
音频编码器
音频解码器
音视频
人脸检测算法
分块
场景
图像
音频特征
时间滑动窗口
视觉特征
坐标系
信号
序列