一种行业指令微调数据集自动生成方法及其系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种行业指令微调数据集自动生成方法及其系统
申请号:CN202510207024
申请日期:2025-02-24
公开号:CN120297402A
公开日期:2025-07-11
类型:发明专利
摘要
本发明公开了一种行业指令微调数据集自动生成方法及其系统,属于人工智能技术领域,S10:选择行业标准文档数据,按照章节解析为若干段落文本作为数据源;S20:使用大语言模型对段落文本生成不同类型的问题;S30:根据评分规则对生成的问题进行打分,过滤评分低于预设阈值的问题;S40:通过大语言模型调整问题的可解性和难度,优化问题质量,S50:使用大语言模型生成问题的初版答案,并使用分层区域优化搜索算法对答案进行优化;S60:通过全局和局部选择方法构建样本池,计算样本压缩比并筛选数据集;本发明的有益效果是:通过高度自动化流程和优化算法,提高了数据集生成效率和质量,降低了标注成本,为大语言模型在行业应用中的快速部署提供支持。
技术关键词
自动生成方法 大语言模型 优化搜索算法 答案 数据 节点 指令 文本 样本 自动生成系统 分层 人工智能技术 存储器 程序 处理器 知识点 模块 多层次 可读存储介质 计算机