摘要
本发明属于航空安全、自然语言处理及人工智能技术领域,具体涉及一种基于事故致因表的航空安全报告通用信息智能提取方法,旨在解决现有航空安全信息风险识别技术无法对航空报告的风险类型与风险原因进行高效、准确识别的问题。本发明方法包括:获取航空事故报告并翻译、校正,构建中文航空数据集;对数据集中的数据预处理;将预处理文本转换为数值向量并聚类,生成事故致因簇;对事故致因簇进行主题命名和层级划分,得到各类型事故致因表;对BERT分类模型微调训练;获取新输入的航空安全信息文本及其对应的致因表,利用Ball‑tree最近邻算法得出事故最佳匹配致因。本发明实现了对航空报告的风险类型与风险原因的高效、准确识别。