摘要
本发明公开一种顾及时空关联的新闻故事脉络生成方法,首先,设计了一种两阶段的无监督故事发现方法,先根据新闻流的文档级语义嵌入初步聚合新闻文章,再通过候选故事中的关键词分布更精细地将语义相关新闻分配到同一个新闻故事;然后,利用正则匹配和维基数据,将新闻文章中提取的时间表达式和地名实体分别解析为标准格式时间和位置坐标,以挖掘新闻文章中的时空信息;最后,提出基于最优传输的时空距离计算方法,并引入距离衰减函数建模时空关联的衰减规律,利用最大生成树构建顾及时空关联的故事脉络。本发明提出的方法能更准确地在时空维度上表达新闻事件的发展演变过程。