摘要
本发明公开了一种行业指令微调数据集自动生成方法及其系统,属于人工智能技术领域,S10:选择行业标准文档数据,按照章节解析为若干段落文本作为数据源;S20:使用大语言模型对段落文本生成不同类型的问题;S30:根据评分规则对生成的问题进行打分,过滤评分低于预设阈值的问题;S40:通过大语言模型调整问题的可解性和难度,优化问题质量,S50:使用大语言模型生成问题的初版答案,并使用分层区域优化搜索算法对答案进行优化;S60:通过全局和局部选择方法构建样本池,计算样本压缩比并筛选数据集;本发明的有益效果是:通过高度自动化流程和优化算法,提高了数据集生成效率和质量,降低了标注成本,为大语言模型在行业应用中的快速部署提供支持。