摘要
本发明涉及文本处理技术领域,尤其涉及一种基于大数据的司法文书分析方法及系统,通过从词向量数据入手,利用预设分类模型输出词语热力数据,以热力值的形式对分词与词语类别的相关性进行量化展示,从而精准定位出目标司法文书中与各词语类别相关的分词,进而通过层层递进的方式确定中心词、中心语句和关键词,为后续的质量分析提供了丰富且全面的数据基础,提高了质量分析报告的准确性,并且能够在关键词提取过程中有效过滤掉目标司法文书中的无关文本信息,使后续数据提取和分析聚焦于目标司法文书的核心内容,降低了大语言模型在计算和推理过程中占用的资源,提高了质量分析过程的效率。