基于数据增强和依存句法的道路和综合管廊标准文本关系抽取方法
申请号:CN202510834275
申请日期:2025-06-20
公开号:CN120780846A
公开日期:2025-10-14
类型:发明专利
摘要
本发明提出了一种基于数据增强和依存句法的道路和综合管廊标准文本关系抽取方法。包括:对道路和综合管廊标准文本进行采集和人工标注,利用大语言模型和模板构建提示词,采用上下文级和实体对级的数据增强策略扩充样本集;对文本进行BERT编码和分词,融合字粒度与词粒度特征,并通过BiLSTM进一步提取语义特征;结合依存句法分析构建依存图,通过剪枝算法筛选关键词节点,将依存类型嵌入与节点表示拼接;采用多关系异构图神经网络编码依存图,实现实体及关键词的特征聚合;最终通过前馈神经网络完成关系分类。所述方法有效缓解领域数据稀缺问题,提升了道路和综合管廊标准文本中关系抽取的准确性和鲁棒性,适用于标准文本的结构化与知识图谱构建。
技术关键词
文本关系抽取方法
综合管廊
依存句法分析
实体
分词
双向长短期记忆网络
样本
编码
前馈神经网络
关键词
大语言模型
数据
节点
预训练语言模型
焦点损失函数
知识图谱构建
BERT模型