一种基于多模态大模型的文档分割方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于多模态大模型的文档分割方法
申请号:CN202510360928
申请日期:2025-03-25
公开号:CN120218018A
公开日期:2025-06-27
类型:发明专利
摘要
本发明提出了一种基于多模态大模型的文档分割方法,包括以下步骤:S1,文档预处理,提取待分割文档中各模态的原始特征;S2,多模态特征编码,利用编码器对各模态的原始特征进行编码,生成能被模型识别和处理的特征表示;S3,模态融合,根据各模态的权重对多模态特征进行融合,得到融合后的文档特征表示;S4,文档分割,利用分割模型对文档特征表示进行分割,输出文档的分割边界和类别标签;S5,后处理与优化,评估分割结果的准确性,根据评估结果调整分割结果和模型参数。本发明通过融合文本、图像、表格和格式等多模态特征,结合自适应加权融合机制动态分配各模态权重,有效捕捉不同模态间的关联性与重要性差异,提高了对复杂文档的分割准确性。
技术关键词
文档分割方法 文档特征 文本 多头注意力机制 语义关联度 表格 复杂度 窗口扩展方法 多模态特征 局部注意力机制 Softmax函数 Sigmoid函数 神经网络分类器 图形交互界面 反馈系统 结构编码器
系统为您推荐了相关专利信息
数据导入方法 字段 编辑 词语 语义
遮挡物检测方法 样本 计算机设备 图像 可读存储介质
文本 采样方法 采样装置 聚类 电数字数据处理技术
图像生成方法 多通道控制模块 图像生成模型 专用训练 噪声预测
腹腔镜图像 噪声预测 语义向量 卡尔曼滤波 交叉注意力机制