用于文本分类的领域知识融合数据增强方法

申请号：CN202411803742

申请日期：2024-12-10

公开号：CN119646223B

公开日期：2025-07-22

类型：发明专利

摘要

本申请提供的用于文本分类的领域知识融合数据增强方法，涉及数据增强技术领域，连接目标领域文献库后根据文本分类任务从中提取构建基础语料库，定义数据增强提示词，将提示词和基础语料库输入数据增强大语言模型中进行数据增强生成增强语料库，构建指令数据集，采用低秩自适应技术对数据增强大语言模型进行融合反馈学习，根据优化后的模型获取优化后的增强语料库，进而获取分类结果，解决了无法有效结合领域知识进行深层次的文本数据增强，导致生成的样本在语义深度和领域适应性上不足的问题，达到了有效生成高质量、领域适应性强的文本样本，提高文本分类模型的准确性和泛化能力，增强生成数据的可用性的效果。

技术关键词

大语言模型数据矩阵样本文本分类模型指令基础指标表达式种子标签语义模块风格误差参数