基于光学字符识别的文档内容处理方法、设备和存储介质
申请号:CN202411723089
申请日期:2024-11-28
公开号:CN119580277A
公开日期:2025-03-07
类型:发明专利
摘要
本申请涉及人工智能技术领域,提供了基于光学字符识别的文档内容处理方法,该方法包括:将原文档转换为图像;预设算法对转换所得图像中的字符进行处理,识别图像中的文本内容;基于自然语言处理技术解析从图像中识别的文本内容,识别其中的语义和格式结构;根据识别出的语义和格式结构重建文档,得到在视觉上其内容与原文档的内容一致的目标文档。本申请的技术方案可以保证字符识别的精确和高效,重建无风险的文档。
技术关键词
光学字符识别
格式结构
文本
图像处理技术
自然语言
紧凑特征
视觉特征
语义
二值化图像
加权特征
识别模块
生成文字
人工智能技术
解码器
处理器
算法