一种基于双重多样性生成的文本增强方法

申请号：CN202411706999

申请日期：2024-11-27

公开号：CN119862884A

公开日期：2025-04-22

类型：发明专利

摘要

本发明公开了一种基于双重多样性生成的文本增强方法，具体包括以下步骤：首先对文本数据进行分词并通过ELMo模型进行词向量表示；再对得到的词向量进行平滑反频率加权得到词语嵌入和句子嵌入，更好地捕捉中心话题；计算词语嵌入和句子嵌入之间的最大边界相关性，引入关键词多样性，根据排序结果选取Top K关键词作为其最终提取的关键词，解决了抽取出来的关键词的语义重复问题；将抽取出来的关键词映射回原始文本的位置，剩余部分使用MASK token替换，同时，将标签作为提示添加到文本前构建好了草稿；再将草稿输入到文本增强模型GENIUS中生成新样本，引入样本多样性。本发明提升了文本增强的样本质量，解决增强样本缺乏多样性的问题。

技术关键词

词语关键词抽取方法分词样本中文文本分类大型语料库数据标签频率预训练模型超参数话题主题语义模块