一种基于元数据与大语言模型的数据质量监测方法及装置
申请号:CN202510970364
申请日期:2025-07-15
公开号:CN120631886A
公开日期:2025-09-12
类型:发明专利
摘要
本发明涉及数据质量管理技术领域,具体提供了一种基于元数据与大语言模型的数据质量监测方法及装置,包括:对文本描述的质量规则进行分词,得到文本描述的质量规则对应的词语序列;在历史高频问答对知识库中匹配与所述词语序列相似度最高的n个问答对;提取所述词语序列中的表名和字段名,并在元数据信息向量库匹配与所述表名和字段名相似度最高的x个元数据信息;将所述文本描述的质量规则、n个问答对和x个元数据信息作为大语言模型的输入,得到大语言模型输出的质量规则sql脚本;在电力行业数据库中执行所述质量规则sql脚本并查看数据表质量水平;其中,n和x均为预设正整数。本发明提供的技术方案,能够实现高效、智能的数据质量管理。
技术关键词
大语言模型
数据
词语
文本
深层语义匹配
监测方法
脚本
序列
分词
ETL技术
匹配模块
神经网络模型
注意力机制
处理器
监测模块
计算机设备
分析模块
可读存储介质
适配器