摘要
本申请涉及音画智能同步领域,具体公开了一种视频会议音画同步方法及系统,其通过对接收并初步处理(如乱序重排、编解码)后的音频样本和视频流提取各自的深层语义特征—例如音频的梅尔频谱图语义特征和视频片段的语义特征,并利用图学习算法在这些高维语义特征之间进行匹配搜索。这种方法能够模拟人眼和人耳对音画内容关联性的感知,从而更准确地捕捉和量化两者之间的真实时间偏移,即使在传统时间戳可能失效或不准确的复杂场景下,也能精确估算出音画播放偏移量。最终,基于此偏移量对音视频数据块进行调整和渲染,旨在从根本上提升音画同步的精度和鲁棒性。