一种用于大模型长文本生成的指令微调数据集构建方法及系统
申请号:CN202510963977
申请日期:2025-07-14
公开号:CN120910193A
公开日期:2025-11-07
类型:发明专利
摘要
本发明涉及数据集构建技术领域,尤其涉及一种用于大模型长文本生成的指令微调数据集构建方法及系统,该方法包括:对半结构化或结构化开源知识库的文档进行层次化分解,按照主题、大纲和段落三个层级提取结构化内容,清除噪声,形成结构化单元;针对每个结构化单元构建检索式,在全网、指定知识库和/或检索系统中检索得到若干文献条目,从中选取相似度最高的文献条目,构建对应的参考文献摘要;基于每个结构化单元及对应的参考文献摘要,生成细粒度问答对;对所有的细粒度问答对分别进行质量过滤和置信度评估,构成结构化问答数据集。本发明通过多代理协作机制和层次化任务分解策略,有效提升了生成数据的质量与效率。
技术关键词
数据集构建方法
摘要
检索系统
条目
文本
主题
数据集构建系统
XML解析器
指令
层级
三元组
生成答案
关键词
格式
噪声
模板
脚本
模块
语义