摘要
本申请公开了一种场景理解信息生成方法、装置、设备及介质,包括:将图像输入场景分类模型,得到场景分类模型输出的图像对应的场景类型;利用目标检测模型识别图像中的目标对象,得到目标对象信息,其中,目标对象信息包括目标类型以及位置信息,目标类型包括物体和人员;基于人员属性识别模型识别图像中人员的目标属性信息;将场景类型、目标对象信息、目标属性信息作为上下文信息,并基于上下文信息与用户输入文本确定模型输入信息;将模型输入信息输入自然语言处理模型,以使自然语言处理模型基于上下文信息的提示生成图像对应的场景理解信息。这样,提升了对场景的感知能力,生成更为准确的场景理解信息,从而提升用户体验。