领域专用大语言模型的训练样本生成方法及训练方法

申请号：CN202511433522

申请日期：2025-10-09

公开号：CN120892822B

公开日期：2025-12-05

类型：发明专利

摘要

本申请实施例提供一种领域专用大语言模型的训练样本生成方法及训练方法，所述训练样本生成方法包括：对多个数据系统中的异构信息进行采集与预处理，生成与特定优化任务相关的结构化过程数据，并基于所述结构化过程数据，重建与该特定优化任务对应的优化模型的演进轨迹；以及基于所述优化模型的演进轨迹，构建指令微调样本，用于对预训练大语言模型进行定制化训练。本申请提供的方法可以解决具体工程应用中存在的训练数据质量较差的问题。

技术关键词

训练样本生成方法大语言模型多源异构信息网络结构轨迹邮件服务系统模式匹配技术文档管理系统版本控制系统项目管理系统生成测试数据指令节点参数建立通信自然语言矩阵