摘要
本发明公开了一种咨询服务语料数据资产化方法,包括:步骤S1,通过API接口抓取企业公开数据,并结合私有语料库获取企业非结构化、结构化语料数据;步骤S2,对获取的数据进行预处理,其中,预处理方式包括数据清洗、结构化数据、非结构化数据以及输出格式;步骤S3,构建并训练BiLSTM‑Attention模型,得到输入数据的实体标签及语义关系;步骤S4,构建知识图谱,将提取的实体标签映射至行业分类体系,对实体共现频率≥5次且PMI≥0.35的实体建立关联行业风险标签,生成Neo4j图数据库。本发明解决了多源异构语料数据的结构化整合与质量控制问题、数据权属确认与价值量化评估的技术难题、语料数据资产在金融风控场景中的应用闭环问题。