图文处理方法、图文处理模型的训练方法及电子设备

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
图文处理方法、图文处理模型的训练方法及电子设备
申请号:CN202410997542
申请日期:2024-07-24
公开号:CN118537683B
公开日期:2024-11-15
类型:发明专利
摘要
本申请提供了一种图文处理方法、图文处理模型的训练方法及电子设备,涉及人工智能技术领域,包括:获取待处理图像和待处理图像对应的待处理文本;将待处理图像的多个图像令牌分别对应的多层的注意力权重进行聚合,得到多个图像令牌分别对应的聚合之后的权重;根据多个图像令牌分别对应的聚合之后的权重,对多个图像令牌进行删减;基于剩余的图像令牌、待处理文本的多个第一文本令牌和大语言模型,得到图文处理结果。本实施例中,多层的注意力权重进行聚合,根据聚合之后的权重,对图像令牌进行删减,从而减少图像令牌的数量。通过对多层的注意力权重进行聚合,可以使图像令牌的选择注意力更具鲁棒性,在提高图文处理速度的同时保证结果的准确性。
技术关键词
令牌 图文 注意力 文本编码器 大语言模型 语义 计算机程序产品 编码特征 图像编码 电子设备 建立映射关系 可读存储介质 样本 人工智能技术 处理器 存储器 鲁棒性