基于优化算法的视觉-语言模型图文对精准评测数据构建方法

申请号：CN202510867411

申请日期：2025-06-26

公开号：CN120783147A

公开日期：2025-10-14

类型：发明专利

摘要

本发明涉及一种基于优化算法的视觉‑语言模型图文对精准评测数据构建方法，该方法首先通过公开数据集筛选、实时设备采集或深度生成的方式，构建原始图片集合，依托预训练视觉‑语言模型反向生成初始提示词；结合构建的提示词模板，利用大语言模型对初始提示词进行优化，生成与图片高度匹配的提示词；随后，通过多维度评估函数对图文对数据进行优化处理，并对优化后的数据集进行人工校验，剔除低质量或重复的图文对，最终构建高质量的视觉‑语言模型评测数据集。本发明采用优化算法迭代提升图文对数据的匹配度和多样性，显著提高了评测数据的精准性和覆盖范围，可广泛应用于图像生成、视觉问答、跨模态检索等任务的模型性能评测。

技术关键词

数据构建方法图文视觉图片算法语义角色标注方法句式结构事件识别模板大语言模型同义词跨模态对象图像编码交叉注意力机制文本特征向量词嵌入模型