摘要
本公开实施例公开了一种数据去噪方法、装置、电子设备及存储介质,该方法包括:获取标注数据集,标注数据集包括多个样本数据以及原始标签;分别提取各个样本数据对应的样本特征,对各个样本特征进行聚类,得到至少一个第一聚类簇,基于聚类失败的样本特征确定目标特征;将样本数据输入至第一大语言模型进行内容生成,得到第一聚类簇的第一参考标签,将样本数据与第一参考标签拼接后进行特征提取,基于特征提取结果更新第一聚类簇;将目标特征与更新后的第一聚类簇进行聚类,得到目标聚类簇;确定目标聚类簇的第二参考标签,基于原始标签与第二参考标签之间的差异对标注数据集进行去噪;本公开实施例能够提高聚类的准确性,从而有效提高去噪效果。