一种视觉问答数据增强方法、装置、设备及存储介质

申请号：CN202411612390

申请日期：2024-11-13

公开号：CN119128118A

公开日期：2024-12-13

类型：发明专利

摘要

本发明提供了一种视觉问答数据增强方法、装置、设备及存储介质，属于人工智能技术领域，包括获取视觉问答任务的原始数据集；提取原始问题中用于描述原始图像中物体的目标名词，将目标名词输入大语言模型，通过大语言模型生成多个与目标名词相关的新问答对，将新问答对和原始问答对进行合并得到增强后的文本提示；根据数据增强后的文本提示，对原始图像进行目标检测，得到文本提示对应物体的边界框，基于边界框对图像进行分割提取，得到分割掩码图像；根据分割掩码图像及数据增强后的文本提示对原始图像进行重绘，得到增强后的图像。该方法能够得到更高质量的视觉问答数据，从而提高视觉问答模型的准确性，减少VQA中的语言偏差问题。

技术关键词

视觉问答模型大语言模型文本物体数据图像增强模块人工智能技术标签处理器计算机设备可读存储介质存储器动态答案偏差程序