摘要
本发明涉及人工智能领域,提供了一种文本到图像生成方法、装置、设备及介质,可应用于金融、医疗领域,其方法包括:获取描述文本和目标参考姿态;基于编码策略对描述文本进行编码处理得到文本特征;基于提取策略对目标参考姿态进行提取处理得到姿态特征;基于融合策略对文本特征和姿态特征进行融合处理得到融合特征;基于生成策略对融合特征进行生成处理得到目标图像。通过实施本发明实施例实现了基于编码策略、提取策略、融合策略和生成策略对描述文本和目标参考姿态分别进行对应处理得到融合特征,以基于生成策略对融合特征进行生成处理得到目标图像,实现了对目标图像中人物姿态的精确控制,提高了处理效率。