一种基于大模型逆向生成的文档级关系抽取数据合成方法

申请号：CN202411818564

申请日期：2024-12-11

公开号：CN119782547B

公开日期：2025-11-04

类型：发明专利

摘要

本发明公开一种基于大模型逆向生成的文档级关系抽取数据合成方法，其特点采用采用基于随机游走的知识图谱采样方法，从外部知识图谱中采样主题连贯的子图，并动态调整三元组的采样概率，具体包括：从知识图谱中采样三元组集合、动态调整采样概率、数据增强、基于三元组集合生成对应文档数据和反思修正机制等步骤。本发明与现有技术相比具有无需训练模型，仅依赖于大语言模型本身的推理能力来生成合成数据，确保文档级关系抽取合成数据标签的高准确率和高召回率，提高了数据的可信度，为后续的模型训练提供了坚实的基础，不仅降低了人力成本，还解决了在教育、医疗等特定领域中难以获取足够高质量标注数据的问题，具有良好的运用前景。

技术关键词

三元组实体关系子采样方法大语言模型知识图谱补全方法文本段落数据标签动态更新模板机制频率主题策略