摘要
本发明涉及信息检索技术领域,公开了多模态融合与强化学习协同的检索增强生成方法及系统。该方法接收用户输入的原始查询并结合当前迭代步骤的多模态上下文,基于大语言模型生成子查询;结合子查询和多模态上下文以构成当前状态,将检索增强生成任务建模为马尔可夫决策过程,利用大语言模型根据决策策略在当前状态下从预定义的动作集合中自适应地选择最优动作;根据最优动作执行相应的多模态检索操作,对获取的多模态信息进行融合,生成子查询的中间答案或最终答案,利用中间答案更新多模态上下文;通过模仿学习和校准链对大语言模型进行离线训练优化,利用微调后的模型在线推理决策策略和子查询。本发明实现了更高效和准确的复杂查询处理。