多模态的视频字幕识别方法、系统、电子设备及存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
多模态的视频字幕识别方法、系统、电子设备及存储介质
申请号:CN202511269949
申请日期:2025-09-08
公开号:CN120769109A
公开日期:2025-10-10
类型:发明专利
摘要
本发明提供一种多模态的视频字幕识别方法、系统、电子设备及存储介质,涉及视频处理技术领域,该方法包括:对待识别视频进行音视频轨道分离,获得音频文件和视频文件;对音频文件进行人声轨道和背景声轨道分离,获得人声轨道音频;采用带时间戳的自动语音识别方法对人声轨道音频进行字幕识别,获得第一字幕文本;根据视觉语言模型对视频文件进行字幕区域检测,获得字幕区域外接边框;根据字幕区域外接边框采用光学字符识别方法对视频文件进行逐帧字幕识别,获得第二字幕文本;将第一字幕文本和第二字幕文本根据时间轴进行字幕融合,获得字幕识别结果。本发明提高了字幕识别的完整性和精确度。
技术关键词
视频字幕识别方法 自动语音识别方法 光学字符识别方法 人声 文本 轨道 音频 视觉 带时间 短时傅里叶变换 视频帧 音视频 多模态 存储结构 序列 误差 识别模块