基于多模态大模型的WebRTC语音增强系统及方法

申请号：CN202511134961

申请日期：2025-08-14

公开号：CN121011196A

公开日期：2025-11-25

类型：发明专利

摘要

本发明公开了基于多模态大模型的WebRTC语音增强系统及方法，属于人工智能与实时通信交叉技术领域，该系统包括：音视频采集模块，用于通过WebRTC协议栈同步采集用户端的原始语音信号和对应的视频图像数据，并通过时间戳标记与缓存机制实现高精度对齐；多模态特征提取模块，用于分别从所述语音信号中提取音频特征，从所述视频图像中提取视觉唇动特征，以及通过语音识别引擎生成文本语义特征；噪声匹配与更新模块；多模态语义感知增强模块；音频重建模块；WebRTC集成模块。本发明在保障语音语义完整性的同时，实现高精度噪声抑制与毫秒级延迟，满足工业巡检、车载通信等场景对高保真、低延迟、强鲁棒性的需求。

技术关键词

多模态噪声模板音视频语音识别引擎唇动特征音频特征集成模块特征提取模块梅尔频率倒谱系数缓存机制高精度噪声交叉注意力机制文本语义特征短时傅里叶变换