一种基于大模型的提升数据质量的治理方法

申请号：CN202510574859

申请日期：2025-05-06

公开号：CN120429293A

公开日期：2025-08-05

类型：发明专利

摘要

本发明公开了一种基于大模型的提升数据质量的治理方法，包括以下步骤：a、接收多源异构输入数据流，解析文本、图像、时序信号模态特征，通过预训练的多模态编码器生成混合特征向量；b、基于大语言模型生成数据清洗规则，动态执行缺失值插补和异常值检测；c、对敏感字段应用差分隐私策略，根据数据分级标签选择k‑匿名或同态加密；d、执行预处理质量验证，包括计算完整性得分和一致性得分，当综合质量指标低于动态阈值时更新清洗规则。本发明通过预处理质量验证与增量学习机制，模型响应速度提升3倍，延迟<1分钟，误判率降低42%；跨模态对比学习使多模态任务F1‑score提升17%‑23%。

技术关键词

清洗规则 BERT模型大语言模型差分隐私模态特征文本孤立森林算法跨模态编码器加密动态视觉特征数据分布实体自然语言图像异构字段节点