摘要
本发明公开了一种基于深度学习的会议大屏音视频自优化方法及系统,属于智能音视频处理技术领域。针对现有技术中实时性不足、跨模态协同弱及动态场景适应性差等问题,提出分域多模态参数采集与层次化融合的创新架构。方法包括:通过分时采样机制差异化采集声学参数(背景噪声频谱、声源方向角)和视频参数(光照动态范围、人脸关键点位移);利用频域掩码生成噪声抑制权重矩阵及光流法提取画面稳定性特征。实验表明,本方案在55dB噪声环境下语音信噪比提升至22.5dB,弱网场景音视频同步误差降至18ms,动态光照过曝恢复帧数减少62.5%,显著优于传统方案,为混合办公场景提供高鲁棒性、低延迟的音视频自优化解决方案。