一种场景理解信息生成方法、装置、设备及介质

申请号：CN202411376899

申请日期：2024-09-30

公开号：CN119251657A

公开日期：2025-01-03

类型：发明专利

摘要

本申请公开了一种场景理解信息生成方法、装置、设备及介质，包括：将图像输入场景分类模型，得到场景分类模型输出的图像对应的场景类型；利用目标检测模型识别图像中的目标对象，得到目标对象信息，其中，目标对象信息包括目标类型以及位置信息，目标类型包括物体和人员；基于人员属性识别模型识别图像中人员的目标属性信息；将场景类型、目标对象信息、目标属性信息作为上下文信息，并基于上下文信息与用户输入文本确定模型输入信息；将模型输入信息输入自然语言处理模型，以使自然语言处理模型基于上下文信息的提示生成图像对应的场景理解信息。这样，提升了对场景的感知能力，生成更为准确的场景理解信息，从而提升用户体验。

技术关键词

属性识别模型信息生成方法场景分类对象自然语言图像训练样本关键点特征信息生成装置卷积模块文本处理器物体识别模块可读存储介质存储器电子设备

系统为您推荐了相关专利信息

一种基于财务报账无纸化的财务核算方法及装置

财务核算方法标识电子发票纸质凭证信息提取模型

基于自然语言转换技术实现的数据安全管理方法及设备

数据安全管控自然语言转换技术数据安全管理方法身份识别信息语句

经由交叉注意力免费局部化文本到图像生成的系统和方法

文本注意力矩阵数据对象

一种基于大数据和人工智能的自动售药系统

自动售药系统库存管理模块人工智能模块大数据系统管理模块

一种配电网虚拟知识图谱的构建方法及系统

元素动态更新分类技术数据项构建系统