摘要
本发明提出了一种基于多模态大模型的文档分割方法,包括以下步骤:S1,文档预处理,提取待分割文档中各模态的原始特征;S2,多模态特征编码,利用编码器对各模态的原始特征进行编码,生成能被模型识别和处理的特征表示;S3,模态融合,根据各模态的权重对多模态特征进行融合,得到融合后的文档特征表示;S4,文档分割,利用分割模型对文档特征表示进行分割,输出文档的分割边界和类别标签;S5,后处理与优化,评估分割结果的准确性,根据评估结果调整分割结果和模型参数。本发明通过融合文本、图像、表格和格式等多模态特征,结合自适应加权融合机制动态分配各模态权重,有效捕捉不同模态间的关联性与重要性差异,提高了对复杂文档的分割准确性。