摘要
本发明公开了一种用于视觉语言模型逐步推理方法,包括有S1输入文字问题和图像,问题概述模块生成多个问题概述候选结果,推理时间优化模块优化后将问题概述最佳结果作为视觉内容描述模块的输入;S2视觉内容描述模块生成多个视觉内容描述候选结果,推理时间优化模块优化后将视觉内容描述最佳结果作为逻辑分析模块的输入;S3、逻辑分析模块生成多个逻辑分析候选结果,推理时间优化模块优化后将逻辑分析最佳结果作为最后结论模块的输入;S4、最后结论模块生成多个最终结论候选结果,推理时间优化模块优化后输出最终结论最佳结果,增强了模型的训练效率和推理时间可扩展性,大大简化了多模态推理的建模过程,提高了模型在多样化场景中的泛化能力。