摘要
本发明公开了一种基于双重多样性生成的文本增强方法,具体包括以下步骤:首先对文本数据进行分词并通过ELMo模型进行词向量表示;再对得到的词向量进行平滑反频率加权得到词语嵌入和句子嵌入,更好地捕捉中心话题;计算词语嵌入和句子嵌入之间的最大边界相关性,引入关键词多样性,根据排序结果选取Top K关键词作为其最终提取的关键词,解决了抽取出来的关键词的语义重复问题;将抽取出来的关键词映射回原始文本的位置,剩余部分使用MASK token替换,同时,将标签作为提示添加到文本前构建好了草稿;再将草稿输入到文本增强模型GENIUS中生成新样本,引入样本多样性。本发明提升了文本增强的样本质量,解决增强样本缺乏多样性的问题。