摘要
本发明公开了一种基于大语言模型的数据清洗方法及系统,包括:收集和整理待清洗的数据集,格式化为适合模型处理的文本格式,获得待清洗文本数据;基于大语言模型对待清洗文本数据进行文本纠错和规范化处理,基于大语言模型对待清洗文本数据进行异常处理,基于大语言模型对待清洗文本数据进行实体识别和标准化处理;基于大语言模型对待清洗文本数据进行语义一致性检查,基于大语言模型对待清洗文本数据进行缺失数据生成,基于大语言模型对待清洗文本数据进行重复数据处理;记录基于大语言模型对待清洗文本数据进行清洗过程中的所有问题、实施的处理措施、生成的结果以及过程中的各种参数,并基于所述记录,生成结构化报告。