训练数据集的构建方法、装置、电子设备及存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
训练数据集的构建方法、装置、电子设备及存储介质
申请号:CN202510288650
申请日期:2025-03-12
公开号:CN119782830B
公开日期:2025-06-10
类型:发明专利
摘要
本发明提供一种训练数据集的构建方法、装置、电子设备及存储介质,属于人工智能技术领域,包括:对采集的第一数据集预处理得到第二数据集,包括将非文本类型的数据转换为文本类型的数据;获取第二数据集中的各数据的综合分类评分;基于第二数据集中的各数据的综合分类评分,从第二数据集中筛选出目标训练数据集。本发明提供的训练数据集的构建方法、装置、电子设备及存储介质,通过引入自适应领域评估函数来计算每个数据的综合分类评分,可根据各场景及领域需求动态评估并筛选数据,从而在拓宽数据来源、降低清洗成本、统一质量标准及提升专业领域数据纯度等方面有明显的技术提升效果。
技术关键词
文本分类模型 数据分类 样本 光学字符识别技术 非暂态计算机可读存储介质 关键词 电子设备 格式 热力图 处理器 人工智能技术 计算机程序产品 分词 模块 存储器 标签 矩阵 模式