基于OCR和语音识别技术的长视频内容信息采集方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于OCR和语音识别技术的长视频内容信息采集方法
申请号:CN202510755057
申请日期:2025-06-06
公开号:CN120635776A
公开日期:2025-09-12
类型:发明专利
摘要
本发明公开了基于OCR和语音识别技术的长视频内容信息采集方法,包括如下步骤:S1、对输入的长视频数据进行预处理\n提取图像帧序列和音频流;S2、图像帧序列输入OCR识别模块,音频流输入ASR识别模块,获取初步识别结果;S3、构建多目标适应度函数,使用角蜥蜴优化算法优化OCR与ASR参数组合;S4、将最优参数组分别应用于OCR与ASR识别模块,获取优化识别结果;S5、构建融合因子图,采用置信传播算法执行边缘消息传递,生成多模态语义块集合;S6、对多模态语义块集合进行处理,生成统一的多模态内容信息集。本发明通过融合角蜥蜴优化算法与置信传播机制,实现了对长视频中图像文本与语音信息的高精度识别与多模态语义一致性提取。
技术关键词
图像文本信息 识别模块 信息采集方法 语音识别技术 视频图像帧序列 置信传播算法 语义 音频 参数 相关系数阈值 置信度阈值 因子 分段 节点 切片 梅尔频率倒谱系数