基于OCR的视频轴文件智能精确提取方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于OCR的视频轴文件智能精确提取方法及系统
申请号:CN202510443080
申请日期:2025-04-09
公开号:CN120298951B
公开日期:2025-12-09
类型:发明专利
摘要
本发明涉及光学字符识别技术领域,公开了一种基于OCR的视频轴文件智能精确提取方法及系统,该方法包括:提取目标视频帧的OCR文本特征、图像特征和音频特征;对目标视频帧进行分析,得到场景类型,并融合特征向量,基于预训练的自适应注意力模型和融合特征向量,得到加权特征向量;对加权特征向量进行建模,得到隐藏状态序列信息;基于隐藏状态序列信息、长短期记忆网络模型、提取任务信息、场景类型、预训练的深度网络方法和目标视频帧,生成目标视频帧轴文件。通过实施本发明,综合利用信息和方法,能够根据不同视频类型和内容自动调整提取策略,生成准确完整的视频帧轴文件,解决了传统方法提取的视频轴文件准确性和完整性较差的问题。
技术关键词
音频特征 视频帧 长短期记忆网络 精确提取方法 注意力模型 文本 环境状态信息 场景 综合利用信息 图像 光学字符识别技术 序列 关键词 强化学习模型 直方图均衡化 数据 视频解码