摘要
本发明公开了基于多模态大模型的WebRTC语音增强系统及方法,属于人工智能与实时通信交叉技术领域,该系统包括:音视频采集模块,用于通过WebRTC协议栈同步采集用户端的原始语音信号和对应的视频图像数据,并通过时间戳标记与缓存机制实现高精度对齐;多模态特征提取模块,用于分别从所述语音信号中提取音频特征,从所述视频图像中提取视觉唇动特征,以及通过语音识别引擎生成文本语义特征;噪声匹配与更新模块;多模态语义感知增强模块;音频重建模块;WebRTC集成模块。本发明在保障语音语义完整性的同时,实现高精度噪声抑制与毫秒级延迟,满足工业巡检、车载通信等场景对高保真、低延迟、强鲁棒性的需求。