一种基于多模态大模型的文档分割方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于多模态大模型的文档分割方法
申请号:CN202510360928
申请日期:2025-03-25
公开号:CN120218018A
公开日期:2025-06-27
类型:发明专利
摘要
本发明提出了一种基于多模态大模型的文档分割方法,包括以下步骤:S1,文档预处理,提取待分割文档中各模态的原始特征;S2,多模态特征编码,利用编码器对各模态的原始特征进行编码,生成能被模型识别和处理的特征表示;S3,模态融合,根据各模态的权重对多模态特征进行融合,得到融合后的文档特征表示;S4,文档分割,利用分割模型对文档特征表示进行分割,输出文档的分割边界和类别标签;S5,后处理与优化,评估分割结果的准确性,根据评估结果调整分割结果和模型参数。本发明通过融合文本、图像、表格和格式等多模态特征,结合自适应加权融合机制动态分配各模态权重,有效捕捉不同模态间的关联性与重要性差异,提高了对复杂文档的分割准确性。
技术关键词
文档分割方法 文档特征 文本 多头注意力机制 语义关联度 表格 复杂度 窗口扩展方法 多模态特征 局部注意力机制 Softmax函数 Sigmoid函数 神经网络分类器 图形交互界面 反馈系统 结构编码器