融合多模态大语言模型与RAG机制的图文报告生成方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
融合多模态大语言模型与RAG机制的图文报告生成方法
申请号:CN202511527490
申请日期:2025-10-24
公开号:CN120995994A
公开日期:2025-11-21
类型:发明专利
摘要
本发明公开了融合多模态大语言模型与RAG机制的图文报告生成方法,属于文本处理技术领域。所述方法首先将PDF文档转为图像,通过多模态模型识别并提取文本、表格、图表等内容,构建可检索的知识片段库;接着基于用户查询,采用混合检索策略获取相关证据,并利用大语言模型生成含图像占位符的Markdown报告;同时调用文生图模块生成配图,最终实现图文融合的可视化报告输出。本发明支持多模态内容理解、跨模态检索与协同生成,具备良好的泛化性、准确性与实用性,适用于多领域、多语种的复杂文档处理与报告生成。
技术关键词
报告生成方法 大语言模型 多模态 图文 机制 查询意图 文本处理技术 表格 查询关键词 可视化图表 检索策略 处理器 页面 语义 图像 跨模态