摘要
本发明涉及一种铁路公文文本关键词提取方法、装置及电子设备,该方法包括:基于预构建的铁路公文格式规则库,通过正则表达式匹配与位置锁定,从输入文本中提取固定位置的关键字段;使用Jieba分词器加载铁路专用术语库进行分词,并通过依赖关系规则动态修正多词组合实体边界;对分词后文本执行TF‑IDF算法生成初始词权重,根据词语在公文中的位置区域按预设系数调整权重,进行位置加权;将权重大于设定阈值的词与提取的关键字段合并,经术语库校验后输出最终关键词集合。本发明避免了传统算法因低频导致的漏检,消除通用分词器拆分错误,使术语识别错误率下降,使核心词排序优先级提升,强化了关键词语义权重;缩短了新术语入库耗时,解决了更新成本问题。