预训练视觉语言模型的方法、装置、设备及存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
预训练视觉语言模型的方法、装置、设备及存储介质
申请号:CN202510182504
申请日期:2025-02-18
公开号:CN120123766A
公开日期:2025-06-10
类型:发明专利
摘要
本公开提供了一种预训练视觉语言模型的方法、装置、设备及存储介质,属于计算机技术领域。该方法通过从样本图像中分割出样本对象,从样本文本文档中采样得到文本片段,即可根据每个文本片段中包括的至少一个实体名称与样本对象之间的对应关系,将文本片段与包括样本对象的对象图像进行跨模态对齐,从而不需要大规模标注即可得到质量较高的图像‑文本对数据。上述方案极大的降低了训练数据的获取成本,提高了预训练视觉语言模型的效率。
技术关键词
前馈神经网络 样本 文本 对象 视觉 图像分割 掩码矩阵 电子设备 可执行程序代码 实体 处理器 可读存储介质 数据处理单元 计算机程序产品 分词 跨模态 语义 参数