一种基于相对注意力裁剪和判断增强的多模态大语言模型生成方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于相对注意力裁剪和判断增强的多模态大语言模型生成方法及系统
申请号:CN202510734299
申请日期:2025-06-04
公开号:CN120873111A
公开日期:2025-10-31
类型:发明专利
摘要
本发明公开一种基于相对注意力裁剪和判断增强的多模态大语言模型生成方法及系统,属于人工智能技术领域,包括:S1、将输入图像转换后的文本特征和文本问题共同输入大语言模型,生成初始答案,并采用外部指导模型将初始答案与标准答案进行对比,得到初始判断信号;S2、对输入图像、文本问题和通用问题进行计算和裁剪,得到相对注意力图;S3、基于输入图像、文本问题、标准答案、初始判断信号和相对注意力图,对初始答案进行修正,直至大语言模型收敛。本发明显著提升了细粒度视觉理解能力,抑制了幻觉预测问题,提升了复杂视觉场景下的稳定性与鲁棒性。
技术关键词
大语言模型 注意力 生成方法 文本 答案 图像 视觉特征 多层感知器 人工智能技术 信号 生成系统 处理器 矩阵 比率 可读存储介质 存储器 鲁棒性 指标 表达式