一种基于Longformer_BERT模型的语义选取方法
申请号:CN202510021850
申请日期:2025-01-07
公开号:CN119849507A
公开日期:2025-04-18
类型:发明专利
摘要
本发明涉及文本选取技术领域,且公开了一种基于Longformer_BERT模型的语义选取方法,本发明通过对新闻文本进行系统性预处理,提升文本数据的结构化程度,为后续语义分析提供更为清晰、准确的输入;引入Longformer_BERT模型进行语义特征提取,使得本发明能够深入挖掘文本中的潜在语义信息,动态捕捉上下文依赖关系,从而更准确地理解文本的真实含义;且本发明在少量的关键token引入全局注意力,捕捉长文本中重要上下文语义信息,增强对文本深度信息理解,避免了传统方法在处理长文本时可能出现的计算效率低下和语义信息丢失的问题,进一步提升了文本分析的准确性和可靠性;实现对新闻文本高效、准确的文本语义特征提取,为虚假新闻检测等应用场景提供了有力的技术支持。
技术关键词
BERT模型
上下文语义信息
语义特征提取
语义特征选取
动态加权方法
停用词表
分块
滑动窗口
文本特征向量
选取技术
标记
语义向量
注意力机制
序列
数据
索引
策略