基于大语言模型的图像生成方法、视觉大模型的训练方法、装置及智能体
申请号:CN202411749772
申请日期:2024-11-29
公开号:CN119516044B
公开日期:2025-11-11
类型:发明专利
摘要
本公开提供了基于大语言模型的图像生成方法、视觉大模型的训练方法、装置及智能体,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域。该基于大语言模型的图像生成方法包括:获取需求文本;利用大语言模型处理需求文本,得到目标需求文本特征,目标需求文本特征包括图像字特征与属性提示特征,图像字特征表征生成的目标图像中需要展示的图像字,属性提示特征与图像字的图像属性相关;利用视觉大模型处理目标需求文本特征,得到目标图像,目标图像包括基于图像属性展示的图像字区域,图像字区域表征需求文本中的图像字。
技术关键词
融合特征
文本
视觉
噪声图像
大语言模型
样本
噪声特征
噪声信息
降噪模块
图像生成方法
注意力机制
级联
场景
标签
子模块
网络结构
蒸馏
处理单元