一种基于检索增强生成的文本微调数据集构建方法、系统和介质
申请号:CN202510108961
申请日期:2025-01-23
公开号:CN119988975A
公开日期:2025-05-13
类型:发明专利
摘要
本发明公开了一种基于检索增强生成的文本微调数据集构建方法、系统和介质,方法包括收集文本数据并对文本数据预处理形成第一数据,第一数据形成第一数据集;第一数据集中每个第一数据生成至少一个数据问题,数据问题形成第二数据集;第一数据集和第二数据集通过向量模型构建索引向量库,并通过相似度检索查找数据问题对应的第一数据;完善每个数据问题对应的第一数据,完善后的第一数据和对应的数据问题形成数据对,数据对形成第三数据集;对第三数据集中的数据对进行过滤和修正,形成第四数据集;对第四数据集进行聚类,形成第五数据集;对第五数据集进行核验,形成文本微调数据集。结合检索增强生成和对话式大语言模型,构建文本微调数据集。
技术关键词
数据集构建方法
文本
数据构建方法
层次聚类算法
数据集构建系统
意图类别
索引
核心
可读存储介质
大语言模型
语义
自然语言
频率
程序
格式
计算机