融合多模态大语言模型与RAG机制的图文报告生成方法

申请号：CN202511527490

申请日期：2025-10-24

公开号：CN120995994A

公开日期：2025-11-21

类型：发明专利

摘要

本发明公开了融合多模态大语言模型与RAG机制的图文报告生成方法，属于文本处理技术领域。所述方法首先将PDF文档转为图像，通过多模态模型识别并提取文本、表格、图表等内容，构建可检索的知识片段库；接着基于用户查询，采用混合检索策略获取相关证据，并利用大语言模型生成含图像占位符的Markdown报告；同时调用文生图模块生成配图，最终实现图文融合的可视化报告输出。本发明支持多模态内容理解、跨模态检索与协同生成，具备良好的泛化性、准确性与实用性，适用于多领域、多语种的复杂文档处理与报告生成。

技术关键词

报告生成方法大语言模型多模态图文机制查询意图文本处理技术表格查询关键词可视化图表检索策略处理器页面语义图像跨模态