基于优化算法的视觉-语言模型图文对精准评测数据构建方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于优化算法的视觉-语言模型图文对精准评测数据构建方法
申请号:CN202510867411
申请日期:2025-06-26
公开号:CN120783147A
公开日期:2025-10-14
类型:发明专利
摘要
本发明涉及一种基于优化算法的视觉‑语言模型图文对精准评测数据构建方法,该方法首先通过公开数据集筛选、实时设备采集或深度生成的方式,构建原始图片集合,依托预训练视觉‑语言模型反向生成初始提示词;结合构建的提示词模板,利用大语言模型对初始提示词进行优化,生成与图片高度匹配的提示词;随后,通过多维度评估函数对图文对数据进行优化处理,并对优化后的数据集进行人工校验,剔除低质量或重复的图文对,最终构建高质量的视觉‑语言模型评测数据集。本发明采用优化算法迭代提升图文对数据的匹配度和多样性,显著提高了评测数据的精准性和覆盖范围,可广泛应用于图像生成、视觉问答、跨模态检索等任务的模型性能评测。
技术关键词
数据构建方法 图文 视觉 图片 算法 语义角色标注方法 句式结构 事件识别 模板 大语言模型 同义词 跨模态 对象 图像编码 交叉注意力机制 文本特征向量 词嵌入模型