铁路公文文本关键词提取方法、装置及电子设备

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
铁路公文文本关键词提取方法、装置及电子设备
申请号:CN202510830648
申请日期:2025-06-20
公开号:CN120706422A
公开日期:2025-09-26
类型:发明专利
摘要
本发明涉及一种铁路公文文本关键词提取方法、装置及电子设备,该方法包括:基于预构建的铁路公文格式规则库,通过正则表达式匹配与位置锁定,从输入文本中提取固定位置的关键字段;使用Jieba分词器加载铁路专用术语库进行分词,并通过依赖关系规则动态修正多词组合实体边界;对分词后文本执行TF‑IDF算法生成初始词权重,根据词语在公文中的位置区域按预设系数调整权重,进行位置加权;将权重大于设定阈值的词与提取的关键字段合并,经术语库校验后输出最终关键词集合。本发明避免了传统算法因低频导致的漏检,消除通用分词器拆分错误,使术语识别错误率下降,使核心词排序优先级提升,强化了关键词语义权重;缩短了新术语入库耗时,解决了更新成本问题。
技术关键词
术语 铁路专用 关键字 实体 文本关键词提取 词语 算法 动态更新 格式 定位规则 分词词典 电子设备 附件 关系