基于多模态大模型的WebRTC语音增强系统及方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于多模态大模型的WebRTC语音增强系统及方法
申请号:CN202511134961
申请日期:2025-08-14
公开号:CN121011196A
公开日期:2025-11-25
类型:发明专利
摘要
本发明公开了基于多模态大模型的WebRTC语音增强系统及方法,属于人工智能与实时通信交叉技术领域,该系统包括:音视频采集模块,用于通过WebRTC协议栈同步采集用户端的原始语音信号和对应的视频图像数据,并通过时间戳标记与缓存机制实现高精度对齐;多模态特征提取模块,用于分别从所述语音信号中提取音频特征,从所述视频图像中提取视觉唇动特征,以及通过语音识别引擎生成文本语义特征;噪声匹配与更新模块;多模态语义感知增强模块;音频重建模块;WebRTC集成模块。本发明在保障语音语义完整性的同时,实现高精度噪声抑制与毫秒级延迟,满足工业巡检、车载通信等场景对高保真、低延迟、强鲁棒性的需求。
技术关键词
多模态 噪声模板 音视频 语音识别引擎 唇动特征 音频特征 集成模块 特征提取模块 梅尔频率倒谱系数 缓存机制 高精度噪声 交叉注意力机制 文本 语义特征 短时傅里叶变换