基于大语言模型的图像生成方法、视觉大模型的训练方法、装置及智能体

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于大语言模型的图像生成方法、视觉大模型的训练方法、装置及智能体
申请号:CN202411749772
申请日期:2024-11-29
公开号:CN119516044B
公开日期:2025-11-11
类型:发明专利
摘要
本公开提供了基于大语言模型的图像生成方法、视觉大模型的训练方法、装置及智能体,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域。该基于大语言模型的图像生成方法包括:获取需求文本;利用大语言模型处理需求文本,得到目标需求文本特征,目标需求文本特征包括图像字特征与属性提示特征,图像字特征表征生成的目标图像中需要展示的图像字,属性提示特征与图像字的图像属性相关;利用视觉大模型处理目标需求文本特征,得到目标图像,目标图像包括基于图像属性展示的图像字区域,图像字区域表征需求文本中的图像字。
技术关键词
融合特征 文本 视觉 噪声图像 大语言模型 样本 噪声特征 噪声信息 降噪模块 图像生成方法 注意力机制 级联 场景 标签 子模块 网络结构 蒸馏 处理单元