基于OCR和语音识别技术的长视频内容信息采集方法

申请号：CN202510755057

申请日期：2025-06-06

公开号：CN120635776A

公开日期：2025-09-12

类型：发明专利

摘要

本发明公开了基于OCR和语音识别技术的长视频内容信息采集方法，包括如下步骤：S1、对输入的长视频数据进行预处理\n提取图像帧序列和音频流；S2、图像帧序列输入OCR识别模块，音频流输入ASR识别模块，获取初步识别结果；S3、构建多目标适应度函数，使用角蜥蜴优化算法优化OCR与ASR参数组合；S4、将最优参数组分别应用于OCR与ASR识别模块，获取优化识别结果；S5、构建融合因子图，采用置信传播算法执行边缘消息传递，生成多模态语义块集合；S6、对多模态语义块集合进行处理，生成统一的多模态内容信息集。本发明通过融合角蜥蜴优化算法与置信传播机制，实现了对长视频中图像文本与语音信息的高精度识别与多模态语义一致性提取。

技术关键词

图像文本信息识别模块信息采集方法语音识别技术视频图像帧序列置信传播算法语义音频参数相关系数阈值置信度阈值因子分段节点切片梅尔频率倒谱系数