一种应用于AI语言大模型的数据集去重方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种应用于AI语言大模型的数据集去重方法
申请号:CN202411608976
申请日期:2024-11-12
公开号:CN119557560A
公开日期:2025-03-04
类型:发明专利
摘要
本发明公开了一种应用于AI语言大模型的数据集去重方法,包括以下步骤:获取用于训练AI语言大模型的数据集中的文本数据,并进行预处理,获得预处理后的文本数据;对预处理后的文本数据进行文本特征判断,确定所述文本数据的数据类型;所述数据类型包括:预训练数据集、问答数据集和偏好数据集;对确定数据类型的文本数据进行关键字统一及标准化字段映射,并进行对应的数据去重;所述数据去重包括:预训练数据去重、问答数据去重和偏好数据去重。该方法通过高效的预处理、特征判断和关键字统一映射,并针对不同数据类型选择对应的数据去重,其有效提升了AI语言大模型训练数据集的质量,进一步增强了AI语言大模型对自然语言的处理能力。
技术关键词
数据 元素 关键字 智能文档 分块算法 链表结构 标识符 节点 动态规划算法 语义 标志 中文文本 格式 字段 滑动窗口 自然语言 字符 索引 关键词