摘要
本发明属于自然语言处理技术领域,公开了一种信息密度计算方法及其应用系统,包括语义单元抽取模块、多属性加注模块、信息密度评分模块、密度分布建模模块、下游应用接口模块;语义单元抽取模块从原始文本中通过融合分词、句法依存分析与语义角色标注,识别主谓宾结构、专有名词组合及动宾短语,结合领域词典与概念本体统一术语表达,输出结构化的语义单元列表。本发明提出了一种从语义结构层面建模信息密度的新方法,区别于词频统计或黑盒概率方法,强调结构可解释性、属性组合性与应用适配性,尤其适用于智能摘要、文档压缩、语义标注、知识图谱构建等场景,具备明确的新颖性、实用性与可推广性。