一种视觉问答数据增强方法、装置、设备及存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种视觉问答数据增强方法、装置、设备及存储介质
申请号:CN202411612390
申请日期:2024-11-13
公开号:CN119128118A
公开日期:2024-12-13
类型:发明专利
摘要
本发明提供了一种视觉问答数据增强方法、装置、设备及存储介质,属于人工智能技术领域,包括获取视觉问答任务的原始数据集;提取原始问题中用于描述原始图像中物体的目标名词,将目标名词输入大语言模型,通过大语言模型生成多个与目标名词相关的新问答对,将新问答对和原始问答对进行合并得到增强后的文本提示;根据数据增强后的文本提示,对原始图像进行目标检测,得到文本提示对应物体的边界框,基于边界框对图像进行分割提取,得到分割掩码图像;根据分割掩码图像及数据增强后的文本提示对原始图像进行重绘,得到增强后的图像。该方法能够得到更高质量的视觉问答数据,从而提高视觉问答模型的准确性,减少VQA中的语言偏差问题。
技术关键词
视觉问答模型 大语言模型 文本 物体 数据 图像增强模块 人工智能技术 标签 处理器 计算机设备 可读存储介质 存储器 动态 答案 偏差 程序