一种基于检索增强生成的文本微调数据集构建方法、系统和介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于检索增强生成的文本微调数据集构建方法、系统和介质
申请号:CN202510108961
申请日期:2025-01-23
公开号:CN119988975A
公开日期:2025-05-13
类型:发明专利
摘要
本发明公开了一种基于检索增强生成的文本微调数据集构建方法、系统和介质,方法包括收集文本数据并对文本数据预处理形成第一数据,第一数据形成第一数据集;第一数据集中每个第一数据生成至少一个数据问题,数据问题形成第二数据集;第一数据集和第二数据集通过向量模型构建索引向量库,并通过相似度检索查找数据问题对应的第一数据;完善每个数据问题对应的第一数据,完善后的第一数据和对应的数据问题形成数据对,数据对形成第三数据集;对第三数据集中的数据对进行过滤和修正,形成第四数据集;对第四数据集进行聚类,形成第五数据集;对第五数据集进行核验,形成文本微调数据集。结合检索增强生成和对话式大语言模型,构建文本微调数据集。
技术关键词
数据集构建方法 文本 数据构建方法 层次聚类算法 数据集构建系统 意图类别 索引 核心 可读存储介质 大语言模型 语义 自然语言 频率 程序 格式 计算机