一种基于深度学习的数据集增强方法及系统

申请号：CN202511141956

申请日期：2025-08-15

公开号：CN120705590B

公开日期：2025-12-05

类型：发明专利

摘要

本发明涉及数据集增强技术领域，尤其涉及一种基于深度学习的数据集增强方法及系统，方法包括：将原始文本输入预训练跨模态文本编码器，得到原始语义向量。预设多目标模态，构建各模态的投影函数，将原始语义向量映射为各目标模态的风格引导向量，并加权融合生成综合风格向量。对原始文本进行句法分析，提取词级掩码，基于掩码将上下文词向量与综合风格向量进行差异化融合，生成全局融合语义向量。通过可训练的投影矩阵将其映射至大语言模型的输入空间，形成软提示向量并注入模型输入层，引导生成多个语义忠实且风格多样的增强文本，完成数据集增强。本发明实现了在保留原有语义信息的同时增强了生成文本多风格化的效果。

技术关键词

融合语义语义向量文本编码器大语言模型风格跨模态图像图文计算机程序指令数据预训练语言模型图像编码器矩阵序列存储器处理器