一种生成VQA数据集的方法、装置、电子设备及可读介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种生成VQA数据集的方法、装置、电子设备及可读介质
申请号:CN202411739564
申请日期:2024-11-29
公开号:CN119829779A
公开日期:2025-04-15
类型:发明专利
摘要
本申请实施例提供了一种生成VQA数据集的方法、装置、电子设备及可读介质,包括:获取收集到的图像数据集;采用视觉语言模型确定针对每张图像提出的计数问题;从每个计数问题中抽取实体词,得到每个计数问题对应的实体词;利用开集目标检测模型检测每个实体词在对应的图像中的位置和数量,得到每个实体词对应的检测信息;其中,检测信息包括位置信息和数量信息;将每个计数问题及其对应的检测信息融合成每个计数问题的目标语句,并将每个计数问题的目标语句作为每个计数问题的答案;利用每张图像、针对每张图像提出的计数问题和每个计数问题的答案,生成VQA数据集,相比于现有的方法,其不仅能够提高生成效率,还能够生成高质量的VQA数据集。
技术关键词
检测信息融合 图像 答案 大语言模型 语句 数据 识别方法 通信接口 电子设备 处理器 视觉 存储器 校园 模块 介质 场景 对象 程序 指令