基于语义索引分割的表头字段智能对标方法、系统及装置
申请号:CN202511449009
申请日期:2025-10-11
公开号:CN120910054A
公开日期:2025-11-07
类型:发明专利
摘要
本发明公开了一种基于语义索引分割的表头字段智能对标方法及系统,涉及数据治理技术领域,本发明针对现有技术中表头字段标准化依赖人工、效率低且难以处理语义模糊及非中文字段的问题,提出了一种融合语义理解与向量匹配的智能对标方案。该方法通过大语言模型分解表头字段生成初始词库,构建历史对标数据库实现快速匹配;采用微调BERT模型进行语义切分,结合向量库检索与Top‑K推荐完成精准对标;针对非中文字段应用正则规则与语义逻辑实现代码集识别。系统包括词库构建、历史匹配、语义切分与向量匹配等模块,装置包含处理器、存储器等硬件单元。本发明实现了表头字段的自动化标准化处理,提高了数据治理效率。
技术关键词
表头
BERT模型
对标方法
大语言模型
字段
更新词库
关系型数据库
全文索引
计算机终端设备
数据治理技术
处理器
对标系统
匹配模块
对标装置
术语
输入输出接口
融合语义