多模态的视频字幕识别方法、系统、电子设备及存储介质

申请号：CN202511269949

申请日期：2025-09-08

公开号：CN120769109A

公开日期：2025-10-10

类型：发明专利

摘要

本发明提供一种多模态的视频字幕识别方法、系统、电子设备及存储介质，涉及视频处理技术领域，该方法包括：对待识别视频进行音视频轨道分离，获得音频文件和视频文件；对音频文件进行人声轨道和背景声轨道分离，获得人声轨道音频；采用带时间戳的自动语音识别方法对人声轨道音频进行字幕识别，获得第一字幕文本；根据视觉语言模型对视频文件进行字幕区域检测，获得字幕区域外接边框；根据字幕区域外接边框采用光学字符识别方法对视频文件进行逐帧字幕识别，获得第二字幕文本；将第一字幕文本和第二字幕文本根据时间轴进行字幕融合，获得字幕识别结果。本发明提高了字幕识别的完整性和精确度。

技术关键词

视频字幕识别方法自动语音识别方法光学字符识别方法人声文本轨道音频视觉带时间短时傅里叶变换视频帧音视频多模态存储结构序列误差识别模块