摘要
本发明公开了基于OCR和语音识别技术的长视频内容信息采集方法,包括如下步骤:S1、对输入的长视频数据进行预处理\n提取图像帧序列和音频流;S2、图像帧序列输入OCR识别模块,音频流输入ASR识别模块,获取初步识别结果;S3、构建多目标适应度函数,使用角蜥蜴优化算法优化OCR与ASR参数组合;S4、将最优参数组分别应用于OCR与ASR识别模块,获取优化识别结果;S5、构建融合因子图,采用置信传播算法执行边缘消息传递,生成多模态语义块集合;S6、对多模态语义块集合进行处理,生成统一的多模态内容信息集。本发明通过融合角蜥蜴优化算法与置信传播机制,实现了对长视频中图像文本与语音信息的高精度识别与多模态语义一致性提取。