基于大语言模型的图像生成方法、视觉大模型的训练方法、装置及智能体

申请号：CN202411749772

申请日期：2024-11-29

公开号：CN119516044B

公开日期：2025-11-11

类型：发明专利

摘要

本公开提供了基于大语言模型的图像生成方法、视觉大模型的训练方法、装置及智能体，涉及人工智能技术领域，尤其涉及计算机视觉、深度学习、大模型等技术领域。该基于大语言模型的图像生成方法包括：获取需求文本；利用大语言模型处理需求文本，得到目标需求文本特征，目标需求文本特征包括图像字特征与属性提示特征，图像字特征表征生成的目标图像中需要展示的图像字，属性提示特征与图像字的图像属性相关；利用视觉大模型处理目标需求文本特征，得到目标图像，目标图像包括基于图像属性展示的图像字区域，图像字区域表征需求文本中的图像字。

技术关键词

融合特征文本视觉噪声图像大语言模型样本噪声特征噪声信息降噪模块图像生成方法注意力机制级联场景标签子模块网络结构蒸馏处理单元