基于OCR的视频轴文件智能精确提取方法及系统

申请号：CN202510443080

申请日期：2025-04-09

公开号：CN120298951B

公开日期：2025-12-09

类型：发明专利

摘要

本发明涉及光学字符识别技术领域，公开了一种基于OCR的视频轴文件智能精确提取方法及系统，该方法包括：提取目标视频帧的OCR文本特征、图像特征和音频特征；对目标视频帧进行分析，得到场景类型，并融合特征向量，基于预训练的自适应注意力模型和融合特征向量，得到加权特征向量；对加权特征向量进行建模，得到隐藏状态序列信息；基于隐藏状态序列信息、长短期记忆网络模型、提取任务信息、场景类型、预训练的深度网络方法和目标视频帧，生成目标视频帧轴文件。通过实施本发明，综合利用信息和方法，能够根据不同视频类型和内容自动调整提取策略，生成准确完整的视频帧轴文件，解决了传统方法提取的视频轴文件准确性和完整性较差的问题。

技术关键词

音频特征视频帧长短期记忆网络精确提取方法注意力模型文本环境状态信息场景综合利用信息图像光学字符识别技术序列关键词强化学习模型直方图均衡化数据视频解码