一种基于LLM的文档结构化自动处理方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于LLM的文档结构化自动处理方法及系统
申请号:CN202411852020
申请日期:2024-12-16
公开号:CN119782503B
公开日期:2025-08-29
类型:发明专利
摘要
本发明公开了一种基于LLM的文档结构化自动处理方法及系统,涉及文档处理技术领域,包括步骤:S1、文档输入和预处理:去除无序文本中的特殊字符、统一编码格式,调整其语义密度;S2、去冗余和关键词提取:去除无序文本中的重复信息,并提取第一关键词;S3、语义抽取和结构化:根据第一关键词逐句解析无序文本,抽取每一个句子对应的主要意义和相关语义信息,得到抽取结果,包括同一个句子的第二关键词和句意;S4、语义栈构建和更新:根据抽取结果构建和更新语义栈,存储语义单元;一个语义单元对应同一个抽取结果;S5、结构化输出:将语义栈中的数据以预设格式输出。本发明适用于多领域、多类型的复杂无序文档的结构化处理。
技术关键词
语义 自定义关键词 层级 文本 系统模块 信息熵 冗余 格式 聚类方法 界面 子模块 分类方法 关系 数据 编码 动态 密度 计划