文档结构化信息坐标映射方法和装置、设备及存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
文档结构化信息坐标映射方法和装置、设备及存储介质
申请号:CN202411449582
申请日期:2024-10-17
公开号:CN119229461A
公开日期:2024-12-31
类型:发明专利
摘要
本发明公开了一种文档结构化信息坐标映射方法和装置、设备及存储介质,具体涉及计算机技术领域,包括:获取文档图像,使用OCR技术对文档图像进行版面分析;对输入文本信息进行结构化提取;使用多层次匹配策略结合语义理解技术对结构化输出结果进行匹配定位,计算与所述输入文本信息中的精确字符偏移量并将其映射至图像坐标系;将精确结构化数据绘制成表单并与所述文档图像集成,生成可视化文档结构化信息界面。本发明解决了现有技术中利用OCR和LLM进行文档结构化信息提取时缺少坐标映射的问题,加速了信息检索的速度,还确保了数据处理的准确性,提高了处理复杂文档时的准确率和效率,大幅度提升了用户的工作效率。
技术关键词
文档结构化信息 文本 坐标映射方法 语义理解技术 字符 预训练语言模型 词嵌入技术 实体 图像 多层次 可视化模块 识别误差 表单 生成技术 坐标系 图谱 可读存储介质 计算机