一种基于大模型的提升数据质量的治理方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于大模型的提升数据质量的治理方法
申请号:CN202510574859
申请日期:2025-05-06
公开号:CN120429293A
公开日期:2025-08-05
类型:发明专利
摘要
本发明公开了一种基于大模型的提升数据质量的治理方法,包括以下步骤:a、接收多源异构输入数据流,解析文本、图像、时序信号模态特征,通过预训练的多模态编码器生成混合特征向量;b、基于大语言模型生成数据清洗规则,动态执行缺失值插补和异常值检测;c、对敏感字段应用差分隐私策略,根据数据分级标签选择k‑匿名或同态加密;d、执行预处理质量验证,包括计算完整性得分和一致性得分,当综合质量指标低于动态阈值时更新清洗规则。本发明通过预处理质量验证与增量学习机制,模型响应速度提升3倍,延迟<1分钟,误判率降低42%;跨模态对比学习使多模态任务F1‑score提升17%‑23%。
技术关键词
清洗规则 BERT模型 大语言模型 差分隐私 模态特征 文本 孤立森林算法 跨模态 编码器 加密 动态 视觉特征 数据分布 实体 自然语言 图像 异构 字段 节点