摘要
本申请提供了一种隐式问题推理模型的训练方法和隐式问题推理方法,可以应用于人工智能领域,该训练方法包括获取推理训练集;根据场景视频构建目标区域的三维模型;将场景视频和隐式问题输入至视觉语言模型,输出语义特征;将场景视频和语义特征输入至分割基础模型,输出多个掩码图像,掩码图像在与隐式问题对应的多个初始物体上形成有掩膜标签;利用感知融合模型处理多个掩码图像和语义特征,得到目标融合特征;利用预设语言模型处理三维模型、语义特征和目标融合特征,输出推理答案,初始推理模型包括视觉语言模型、分割基础模型、感知融合模型和预设语言模型;根据推理答案和答案标签对初始推理模型的模型参数进行调整,得到目标推理模型。