摘要
本发明提供一种图像文本联合数据处理方法、设备及介质,包括:获取图像数据和图像对应文本数据,采用pnmix法对图像进行数据增强,得到的第一图像数据集和第一图像对应文本数据集;构建常用颜色词汇表,识别第一图像对应文本数据集,将第一图像对应文本数据集中的颜色词汇与常用颜色词汇表中的颜色对比;若常用颜色词汇表存在相同颜色,将第一图像对应文本数据集中的颜色词汇替换为下划线。以解决现有技术中存在的在跨模态模型的数据训练过程中,由于图像数据与文本数据这两种模态具有不同的表达方式,使得图像的视觉特征在增强后而改变,使得图像与文本出现语义不一致,而导致后续训练的模型在实际应用中的精度下降的技术问题。