一种快速定位和抽取证券市场公告文件关键信息的方法、装置、存储介质及电子设备
申请号:CN202510609482
申请日期:2025-05-13
公开号:CN120578761A
公开日期:2025-09-02
类型:发明专利
摘要
本发明是一种快速定位和抽取证券市场公告文件关键信息的方法、装置、存储介质及电子设备,包括以下步骤:S1基于公告类型下载目标公告文件,并解析其自带目录结构,生成一四级目录标题标注集;S2通过预定义的正则规则适配每类公告的一级目录,形成通用一级目录解析规则;S3利用预训练模型对所述标注集进行训练,生成通用目录解析模型;S4当公告文件不符合规定时,重新基于预定义的正则规则生成一级目录,并自动补充二至四级目录;S5为每组标签配置二至四级目录的正则匹配规则;S6对标签组进行数据标注,训练生成统一的深度学习抽取模型;S7对待处理公告文件进行关键信息定位与抽取。对于公告文件的关键信息,实现快速定位和抽取。
技术关键词
目录
标签组
BERT模型
表格
关键词
电子设备
预训练模型
表头
处理器
字段
模块
存储器
参数
程序
层级
数据
资源