一种面向城轨领域大模型构建高质量数据集的方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种面向城轨领域大模型构建高质量数据集的方法及系统
申请号:CN202510425437
申请日期:2025-04-07
公开号:CN120277328A
公开日期:2025-07-08
类型:发明专利
摘要
本发明提供了一种面向城轨领域大模型构建高质量数据集的方法及系统,包括以下步骤:将符合业务需求的数据进行收集汇总,作为输入数据源;通过数据预处理对数据进行清洗,提高数据的质量;对预处理后的数据添加标签,以便数据的关键特征被更好的理解以及学习;通过数据维护对标注数据进行质量审核和动态管理。本发明提供的一种面向城轨领域大模型构建高质量数据集的方法及系统,涵盖了数据采集、预处理、标注、维护和安全等多个方面。提升了整个数据处理过程的系统化和标准化程度,有利于提高数据质量和模型训练的效果。
技术关键词
K近邻算法 数据安全服务 标签 数据分布特征 命名实体识别 脱敏策略 样本 邻居 机器翻译 数据采集模块 噪声 文本 异常数据 代表 动态 特征值 密度