摘要
本发明涉及基于大语言模型的AI智能文档处理方法,包括接收原始文档输入,通过多模态特征提取模块获取文档的文本特征、视觉布局特征和语义结构特征;使用布局感知的注意力机制处理多模态特征,生成文档元素的关联矩阵;将提取的特征输入预训练的大语言模型,生成包含文档元素间关联关系的中间表示;根据任务需求动态选择处理路径,包括但不限于:文档分类、信息抽取、内容生成或问答响应。该基于大语言模型的AI智能文档处理方法,通过布局感知的注意力机制,在标准数据集上的实验表明表格结构识别F1‑score提升,跨页元素关联准确率大幅提升,视觉‑文本特征对齐损失降低,通过动态分块处理策略使得100页PDF文档处理时间大幅缩短,GPU内存占用峰值下降。