摘要
本发明提供一种训练数据集的构建方法、装置、电子设备及存储介质,属于人工智能技术领域,包括:对采集的第一数据集预处理得到第二数据集,包括将非文本类型的数据转换为文本类型的数据;获取第二数据集中的各数据的综合分类评分;基于第二数据集中的各数据的综合分类评分,从第二数据集中筛选出目标训练数据集。本发明提供的训练数据集的构建方法、装置、电子设备及存储介质,通过引入自适应领域评估函数来计算每个数据的综合分类评分,可根据各场景及领域需求动态评估并筛选数据,从而在拓宽数据来源、降低清洗成本、统一质量标准及提升专业领域数据纯度等方面有明显的技术提升效果。