一种基于多模态大模型的文档分割方法

申请号：CN202510360928

申请日期：2025-03-25

公开号：CN120218018A

公开日期：2025-06-27

类型：发明专利

摘要

本发明提出了一种基于多模态大模型的文档分割方法，包括以下步骤：S1，文档预处理，提取待分割文档中各模态的原始特征；S2，多模态特征编码，利用编码器对各模态的原始特征进行编码，生成能被模型识别和处理的特征表示；S3，模态融合，根据各模态的权重对多模态特征进行融合，得到融合后的文档特征表示；S4，文档分割，利用分割模型对文档特征表示进行分割，输出文档的分割边界和类别标签；S5，后处理与优化，评估分割结果的准确性，根据评估结果调整分割结果和模型参数。本发明通过融合文本、图像、表格和格式等多模态特征，结合自适应加权融合机制动态分配各模态权重，有效捕捉不同模态间的关联性与重要性差异，提高了对复杂文档的分割准确性。

技术关键词

文档分割方法文档特征文本多头注意力机制语义关联度表格复杂度窗口扩展方法多模态特征局部注意力机制 Softmax函数 Sigmoid函数神经网络分类器图形交互界面反馈系统结构编码器