摘要
本申请公开了一种司法数据卷宗生成方法、系统及计算机程序产品,通过获取电子卷宗图像数据和音频数据;将电子卷宗图像数据进行预处理;采用OCR技术识别预处理后的电子卷宗图像数据,得到第一文本数据;采用语言识别技术识别音频数据,得到第二文本数据;将第一文本数据和第二文本数据进行融合,得到融合数据;利用预先训练好的大语言模型分析融合数据,并提取融合数据的关键信息;根据关键信息对融合数据进行分类,并为每份融合数据分配相应的标签,得到结构化存储的司法数据卷宗。本申请提供的一种司法数据卷宗生成方法、系统及计算机程序产品克服了传统的正则表达式和NLP技术存在的局限性,提高了司法卷宗结构化的准确性和效率。