一种基于大语言模型的数据清洗方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于大语言模型的数据清洗方法及系统
申请号:CN202411939526
申请日期:2024-12-26
公开号:CN119988832A
公开日期:2025-05-13
类型:发明专利
摘要
本发明公开了一种基于大语言模型的数据清洗方法及系统,包括:收集和整理待清洗的数据集,格式化为适合模型处理的文本格式,获得待清洗文本数据;基于大语言模型对待清洗文本数据进行文本纠错和规范化处理,基于大语言模型对待清洗文本数据进行异常处理,基于大语言模型对待清洗文本数据进行实体识别和标准化处理;基于大语言模型对待清洗文本数据进行语义一致性检查,基于大语言模型对待清洗文本数据进行缺失数据生成,基于大语言模型对待清洗文本数据进行重复数据处理;记录基于大语言模型对待清洗文本数据进行清洗过程中的所有问题、实施的处理措施、生成的结果以及过程中的各种参数,并基于所述记录,生成结构化报告。
技术关键词
大语言模型 文本 数据清洗方法 语义 纠错 实体 格式化 指令 数据清洗系统 报告 模板 措施 修正方法 数据模块 文件系统 逻辑 数据字 参数 有效性