一种基于Longformer_BERT模型的语义选取方法

申请号：CN202510021850

申请日期：2025-01-07

公开号：CN119849507A

公开日期：2025-04-18

类型：发明专利

摘要

本发明涉及文本选取技术领域，且公开了一种基于Longformer_BERT模型的语义选取方法，本发明通过对新闻文本进行系统性预处理，提升文本数据的结构化程度，为后续语义分析提供更为清晰、准确的输入；引入Longformer_BERT模型进行语义特征提取，使得本发明能够深入挖掘文本中的潜在语义信息，动态捕捉上下文依赖关系，从而更准确地理解文本的真实含义；且本发明在少量的关键token引入全局注意力，捕捉长文本中重要上下文语义信息，增强对文本深度信息理解，避免了传统方法在处理长文本时可能出现的计算效率低下和语义信息丢失的问题，进一步提升了文本分析的准确性和可靠性；实现对新闻文本高效、准确的文本语义特征提取，为虚假新闻检测等应用场景提供了有力的技术支持。

技术关键词

BERT模型上下文语义信息语义特征提取语义特征选取动态加权方法停用词表分块滑动窗口文本特征向量选取技术标记语义向量注意力机制序列数据索引策略