一种基于双重多样性生成的文本增强方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于双重多样性生成的文本增强方法
申请号:CN202411706999
申请日期:2024-11-27
公开号:CN119862884A
公开日期:2025-04-22
类型:发明专利
摘要
本发明公开了一种基于双重多样性生成的文本增强方法,具体包括以下步骤:首先对文本数据进行分词并通过ELMo模型进行词向量表示;再对得到的词向量进行平滑反频率加权得到词语嵌入和句子嵌入,更好地捕捉中心话题;计算词语嵌入和句子嵌入之间的最大边界相关性,引入关键词多样性,根据排序结果选取Top K关键词作为其最终提取的关键词,解决了抽取出来的关键词的语义重复问题;将抽取出来的关键词映射回原始文本的位置,剩余部分使用MASK token替换,同时,将标签作为提示添加到文本前构建好了草稿;再将草稿输入到文本增强模型GENIUS中生成新样本,引入样本多样性。本发明提升了文本增强的样本质量,解决增强样本缺乏多样性的问题。
技术关键词
词语 关键词抽取方法 分词 样本 中文文本分类 大型语料库 数据 标签 频率 预训练模型 超参数 话题 主题 语义 模块