一种基于自编码器与领域知识图谱的文本数据增广方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于自编码器与领域知识图谱的文本数据增广方法
申请号:CN202411820624
申请日期:2024-12-11
公开号:CN119917854A
公开日期:2025-05-02
类型:发明专利
摘要
本发明公开了一种基于自编码器与领域知识图谱的文本数据增广方法,步骤包括:获取特定领域的文本数据,将文本数据进行预处理得到文本相关信息,结合动态注意力机制,将文本相关信息进行动态融合作为输入提示词输入生成型自编码器;训练生成型自编码器,从潜在空间采样潜在向量,生成初始增广文本;将初始增广文本输入到领域知识图谱校验模块中,验证初始增广文本与文本数据所在领域的一致性;将领域知识图谱校验模块的校验结果反馈给生成型自编码器,根据校验结果调整输入提示和增广文本生成策略,并结合多模态信息进行文本数据增广。本发明能够自动化生成符合领域特定知识体系的增广文本,提升文本增广数据的质量与多样性。
技术关键词
数据增广方法 文本 编码器 图谱 多模态信息 校验模块 注意力机制 主题关键词 表达式 SPARQL查询 主题建模方法 解码器 信息抽取技术 动态 训练语言模型 命名实体识别 依存句法 表格