摘要
本发明公开了一种基于视觉语言模型的模型推理方法及装置,涉及人工智能技术领域。所述方法包括:对待推理文本和待推理图像进行编码,生成初始推理树;基于推理动作在待推理图像中的可行性参数以及当前节点的状态参数,对初始推理树进行扩展更新处理,生成目标推理树;基于目标推理树中所有结束节点的合理性参数,确定出候选推理路径;根据候选推理路径中的中间节点的一致性参数以及结束节点的合理性参数,确定目标推理路径,最后通过目标推理路径输出目标响应数据。本发明可以提升视觉语言模型在复杂推理任务中的推理效率及准确性。