数据集的质量评估方法、装置、设备、介质以及程序产品
申请号:CN202510873792
申请日期:2025-06-27
公开号:CN120372325B
公开日期:2025-10-24
类型:发明专利
摘要
本申请提供了一种数据集的质量评估方法、装置、设备、介质以及程序产品,涉及人工智能技术领域,方法包括:获取待评估质量的文本数据集;对所述文本数据集进行层次聚类分析,得到所述文本数据集的聚类结果,以及,基于预设的大模型对所述文本数据集中的样本数据进行主题抽取,得到所述样本数据的语义主题;基于所述聚类结果和所述语义主题构建多层标签树,并基于所述文本数据集的标签分布计算所述多层标签树各节点的权重生成加权频次标签树;基于所述加权频次标签树提取所述文本数据集多个维度的量化指标以对所述文本数据集进行质量评估。采用本申请能够提升数据集在多任务大模型训练场景下的适配性。
技术关键词
多层标签
语义主题
文本
数据
节点
样本
聚类
指标
评估设备
计算机程序产品
分布特征
可读存储介质
训练场景
人工智能技术
处理器
评估装置
模块
基准