一种视频字幕提取方法、装置及电子设备

申请号：CN202411724218

申请日期：2024-11-28

公开号：CN119299770A

公开日期：2025-01-10

类型：发明专利

摘要

本申请提供了一种视频字幕提取方法、装置及电子设备，在从原始视频文件中提取图像数据和音频数据后，为了从视频图像中准确提取多样性的字幕，将对图像数据进行多尺度字幕图像特征提取，相对于传统OCR识别，提高了字幕识别结果的准确性，与此同时，本申请对原始视频文件中的音频数据进行语音识别，由于得到的语音识别结果不受图像质量的影响，使其能够弥补视频画质较差时从其图像数据中提取到的字幕识别结果的不足，提高弥补后的视频字幕的准确性和完整性，从而使基于语音识别结果，对字幕识别结果进行校正后生成的字幕文件，可靠满足观众对视频理解的辅助需求或其他对视频字幕的处理需求。

技术关键词

视频字幕提取方法多尺度高频特征深度学习卷积神经网络音频特征提取网络电子设备光学字符识别文本校正图像特征提取语音识别模块数据获取模块