一种基于多层级大模型串行的文本数据清洗方法及系统

申请号：CN202510661321

申请日期：2025-05-22

公开号：CN120671644A

公开日期：2025-09-19

类型：发明专利

摘要

本发明公开了一种基于多层级大模型串行的文本数据清洗方法及系统，方法包括以下步骤：获取待清洗文本数据，并通过初始层大模型对待清洗文本数据进行错误审查与初步清洗，得到初步清洗后文本数据；基于语义相似度评估机制对初步清洗后文本数据进行语义一致性维护；通过中间层大模型对维护后文本进行未知错误理解与高效清洗，得到高效清洗后文本数据；将待清洗文本数据和高效清洗后文本数据输入至完善层大模型中进行文本质量完善与优化，完成文本数据清洗。本发明创新性地采用多层级小参数大语言模型的串行组合来替代大参数的大语言模型，完成数据清洗任务，从而实现了更贴合生产环境的数据清洗方案。

技术关键词

文本数据清洗方法数据清洗系统语义层级模块中间层大语言模型模版机制参数列表