摘要
本申请提供了一种图文处理方法、图文处理模型的训练方法及电子设备,涉及人工智能技术领域,包括:获取待处理图像和待处理图像对应的待处理文本;将待处理图像的多个图像令牌分别对应的多层的注意力权重进行聚合,得到多个图像令牌分别对应的聚合之后的权重;根据多个图像令牌分别对应的聚合之后的权重,对多个图像令牌进行删减;基于剩余的图像令牌、待处理文本的多个第一文本令牌和大语言模型,得到图文处理结果。本实施例中,多层的注意力权重进行聚合,根据聚合之后的权重,对图像令牌进行删减,从而减少图像令牌的数量。通过对多层的注意力权重进行聚合,可以使图像令牌的选择注意力更具鲁棒性,在提高图文处理速度的同时保证结果的准确性。