摘要
本发明公开了一种AI驱动的视频内容字幕同步翻译方法及系统,涉及视频字幕同步技术领域,该系统结合视频帧采集模块和面部嘴唇动作识别模块,本系统能够精确获取每个角色的嘴唇开合垂直距离和开合次数。这些数据用于计算实际的说话语速,并与传统语速指数进行比较,得到第一校准差值系数。这种方法有效调整字幕的时间戳,减少因语速差异导致的时间偏差,使字幕与实际语音更为同步,从而提升了字幕的准确性和观众的观影体验。多人说话重叠识别模块能够精准检测和标记语音重叠情况。如果重叠语音影响因子D超出异常阈值F,系统会触发第二校正指令,进一步校准字幕时间戳,避免了因语音重叠造成的同步问题。