摘要
本发明公开了一种基于动态上下文窗口的专利数据分析方法,属于文本数据分析技术领域,包括:进行领域特征提取,得到查询量q;基于专利文档d与查询量q的相似度对专利文档d排序;使用递归分块算法按排序的顺序将专利文档拆分为最小语义单元,使用局部对齐算法和层次缩减算法以保持文档结构;进行特征提取;结合技术领域特征权重和技术相关度进行软聚类;计算并存储片段间的技术关联概率;建立基于构建的编号的快速检索树;按文档重要性依次对获取的核心片段进行动态调整上下文窗口大小,进行扩展上下文。所述基于动态上下文窗口的专利数据分析方法解决了现有的专利数据分析方式由于存在上下窗口限制的问题,导致分析的效果不佳的问题。