基于大语言模型的文档级知识抽取与融合方法、系统

申请号：CN202411561355

申请日期：2024-11-04

公开号：CN119358546B

公开日期：2025-06-17

类型：发明专利

摘要

本发明提供基于大语言模型的文档级知识抽取与融合方法、系统，属于工业机器人领域，包括：确定所需关键信息范围并建立关键字字典；根据关键字字典对文档级的非结构化数据按段落进行划分，得到划分后的子文档；使用生产者－消费者模式集成大模型的异步架构搭建软件系统，利用软件系统依次对划分后的子文档进行知识抽取任务，从子文档的非结构化数据中提取关键信息；将同一篇子文档中抽取出的所有关键信息整合、归类得到规整的数据，再对规整的数据进行知识融合处理；段落间的关联程度配合关键字字典对文档划分，划分后子文档内容高度聚合，降低大模型处理复杂文档的难度，在大模型中集成生产者－消费者模式，避免系统阻塞，提升系统并发处理能力。

技术关键词

关键字大语言模型融合方法关系字典融合系统收集机器人三元组文本数据实体解析工具术语队列处理单元列表模块消息工业机器人