一种生成VQA数据集的方法、装置、电子设备及可读介质

申请号：CN202411739564

申请日期：2024-11-29

公开号：CN119829779A

公开日期：2025-04-15

类型：发明专利

摘要

本申请实施例提供了一种生成VQA数据集的方法、装置、电子设备及可读介质，包括：获取收集到的图像数据集；采用视觉语言模型确定针对每张图像提出的计数问题；从每个计数问题中抽取实体词，得到每个计数问题对应的实体词；利用开集目标检测模型检测每个实体词在对应的图像中的位置和数量，得到每个实体词对应的检测信息；其中，检测信息包括位置信息和数量信息；将每个计数问题及其对应的检测信息融合成每个计数问题的目标语句，并将每个计数问题的目标语句作为每个计数问题的答案；利用每张图像、针对每张图像提出的计数问题和每个计数问题的答案，生成VQA数据集，相比于现有的方法，其不仅能够提高生成效率，还能够生成高质量的VQA数据集。

技术关键词

检测信息融合图像答案大语言模型语句数据识别方法通信接口电子设备处理器视觉存储器校园模块介质场景对象程序指令