摘要
本公开描述了用于使用机器学习模型进行快速个性化图像生成的技术。由机器学习模型的第一子模型生成上下文化的特征。上下文化的特征是基于对象图像和文本提示词生成的。对象图像包括目标对象。文本提示词描绘了目标图像,并且指示以下至少一项:改变目标对象的纹理,或者将目标对象放置在特定上下文中。基于对象图像生成自注意力特征。自注意力特征包含关于目标对象的详细信息。通过机器学习模型的第二子模型,基于上下文化的特征和自注意力特征生成目标图像。第二子模型包括上下文交叉注意力层和对象交叉注意力层。目标图像保持目标对象的身份相关信息。