摘要
本申请提供了一种视频字幕提取方法、装置及电子设备,在从原始视频文件中提取图像数据和音频数据后,为了从视频图像中准确提取多样性的字幕,将对图像数据进行多尺度字幕图像特征提取,相对于传统OCR识别,提高了字幕识别结果的准确性,与此同时,本申请对原始视频文件中的音频数据进行语音识别,由于得到的语音识别结果不受图像质量的影响,使其能够弥补视频画质较差时从其图像数据中提取到的字幕识别结果的不足,提高弥补后的视频字幕的准确性和完整性,从而使基于语音识别结果,对字幕识别结果进行校正后生成的字幕文件,可靠满足观众对视频理解的辅助需求或其他对视频字幕的处理需求。