基于视觉语言模型的图像解释方法和装置

申请号：CN202511188183

申请日期：2025-08-25

公开号：CN120747670A

公开日期：2025-10-03

类型：发明专利

摘要

本申请涉及一种基于视觉语言模型的图像解释方法和装置。所述方法包括：根据样本图像的视觉标注和目标知识图谱确定样本推理指令；通过问答引擎，基于样本图像和样本推理指令生成样本图像的图像解释信息；基于样本图像、样本推理指令和样本图像的图像解释信息训练待训练视觉语言模型，确定目标视觉语言模型；通过目标视觉语言模型，根据目标图像和目标推理指令确定目标图像的图像解释信息。上述方案，统一模型训练数据集的数据格式，提高了数据集构建效率，节约了人力成本，同时能够使得训练出的视觉语言模型能够进行深层次的知识推理。

技术关键词

图像样本视觉指令图谱自然语言检测模型训练标记模型训练模块实体实例分割标签投影器数据格式处理器计算机设备可读存储介质存储器