一种用于大模型训练的文档格式转换方法及装置

申请号：CN202510852153

申请日期：2025-06-24

公开号：CN120763117A

公开日期：2025-10-10

类型：发明专利

摘要

本发明涉及计算机技术领域，公开了一种用于大模型训练的文档格式转换方法及装置，包括：基于多个分类指标对PDF文档进行分类得到文档类型；当文档类型为图像型时，进行图像转换与预处理，得到预处理页面图像；解析预处理页面图像得到多模态内容，并分别进行处理得到对应的处理结果；对PDF文档进行内容重建与优化，得到第一中间文档；对第一中间文档进行内容重排，得到Markdown文档。本发明通过综合多个维度对PDF文档准确分类，对不同类型的文档进行差异化的格式转换，提升格式转换的效率与准确性，使得生成的Markdown文档既符合原始PDF文档，又语义连贯、格式规范且适配大模型输入要求，从而能够提高模型训练效果。

技术关键词

文本文档格式转换方法多模态指标表格格式转换装置页面特征图像处理分块策略图像还原大语言模型布局图像增强视觉长宽比语义冗余