一种基于相对注意力裁剪和判断增强的多模态大语言模型生成方法及系统

申请号：CN202510734299

申请日期：2025-06-04

公开号：CN120873111A

公开日期：2025-10-31

类型：发明专利

摘要

本发明公开一种基于相对注意力裁剪和判断增强的多模态大语言模型生成方法及系统，属于人工智能技术领域，包括：S1、将输入图像转换后的文本特征和文本问题共同输入大语言模型，生成初始答案，并采用外部指导模型将初始答案与标准答案进行对比，得到初始判断信号；S2、对输入图像、文本问题和通用问题进行计算和裁剪，得到相对注意力图；S3、基于输入图像、文本问题、标准答案、初始判断信号和相对注意力图，对初始答案进行修正，直至大语言模型收敛。本发明显著提升了细粒度视觉理解能力，抑制了幻觉预测问题，提升了复杂视觉场景下的稳定性与鲁棒性。

技术关键词

大语言模型注意力生成方法文本答案图像视觉特征多层感知器人工智能技术信号生成系统处理器矩阵比率可读存储介质存储器鲁棒性指标表达式