摘要
本发明涉及人工智能领域,提供了一种文本到图像生成方法、装置、设备及介质,可应用于金融、医疗领域,其方法包括:获取文本提示;基于第一编码策略对所述文本提示进行第一编码处理得到语义表示;基于推理策略对所述文本提示进行推理处理得到图像结构数据;基于第二编码策略对所述图像结构数据进行第二编码处理得到结构标识;基于生成策略对所述语义表示和所述结构标识进行生成处理得到目标图像。通过实施本发明实施例实现了基于第一编码策略、推理策略、第二编码策略和生成策略对文本提示分别进行编码、推理和生成等处理得到目标图像,实现对图像结构与语义的精准控制,显著提升复杂场景下的生成质量,从而提高处理效率。