摘要
本发明涉及计算机技术领域,公开了一种用于大模型训练的文档格式转换方法及装置,包括:基于多个分类指标对PDF文档进行分类得到文档类型;当文档类型为图像型时,进行图像转换与预处理,得到预处理页面图像;解析预处理页面图像得到多模态内容,并分别进行处理得到对应的处理结果;对PDF文档进行内容重建与优化,得到第一中间文档;对第一中间文档进行内容重排,得到Markdown文档。本发明通过综合多个维度对PDF文档准确分类,对不同类型的文档进行差异化的格式转换,提升格式转换的效率与准确性,使得生成的Markdown文档既符合原始PDF文档,又语义连贯、格式规范且适配大模型输入要求,从而能够提高模型训练效果。