利用深度学习实现PDF内文的高效语义理解方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
利用深度学习实现PDF内文的高效语义理解方法
申请号:CN202411511340
申请日期:2024-10-28
公开号:CN119360398A
公开日期:2025-01-24
类型:发明专利
摘要
本申请提供了利用深度学习实现PDF内文的高效语义理解方法,涉及语义理解技术领域,包括:解析建筑行业PDF多模态数据,学习模态结构化信息,构建分割提取模块,分割提取模块用于解析PDF模态分布并进行结构化信息提取;建立多模态结构化信息之间的对应识别关系,学习跨模态语义关联特征;根据跨模态语义关联特征,建立协同搜索关系,当协同搜索关系中的任一特征被触发时,根据协同搜索关系进行PDF内文搜索,并将搜索结果进行整合反馈。通过本申请可以解决现有技术中存在建筑行业PDF文档中多模态信息难以准确解析的技术问题,实现精准解析PDF文档中多模态信息的技术目标,达到提高信息查找和提取效率及准确度的技术效果。
技术关键词
语义理解方法 区域建议网络 多模态 关系 预训练模型 跨模态 表格 图纸 训练样本集 语义理解技术 文本识别 词语 图像分割模型 建筑 高层次 通道 掩膜数据