图文处理方法、图文处理模型的训练方法及电子设备

申请号：CN202410997542

申请日期：2024-07-24

公开号：CN118537683B

公开日期：2024-11-15

类型：发明专利

摘要

本申请提供了一种图文处理方法、图文处理模型的训练方法及电子设备，涉及人工智能技术领域，包括：获取待处理图像和待处理图像对应的待处理文本；将待处理图像的多个图像令牌分别对应的多层的注意力权重进行聚合，得到多个图像令牌分别对应的聚合之后的权重；根据多个图像令牌分别对应的聚合之后的权重，对多个图像令牌进行删减；基于剩余的图像令牌、待处理文本的多个第一文本令牌和大语言模型，得到图文处理结果。本实施例中，多层的注意力权重进行聚合，根据聚合之后的权重，对图像令牌进行删减，从而减少图像令牌的数量。通过对多层的注意力权重进行聚合，可以使图像令牌的选择注意力更具鲁棒性，在提高图文处理速度的同时保证结果的准确性。

技术关键词

令牌图文注意力文本编码器大语言模型语义计算机程序产品编码特征图像编码电子设备建立映射关系可读存储介质样本人工智能技术处理器存储器鲁棒性