摘要
本发明涉及金融、医疗健康及人工智能技术领域,提供一种基于检索增强的文生图方法、装置、设备及介质,能够将目标文本提示输入至跨模态检索引擎进行处理,为扩散过程提供引导条件,实现细粒度属性控制;基于布朗桥机制将生成图像与范例图像进行对齐,让扩散过程严格对齐范例属性特征,确保生成图像在细粒度属性上的精准性,能够基于桥接项迭代预测清晰图像;基于属性条件U‑Net动态调整文本提示的特征与范例图像的特征的相对重要性,有效协调文本语义和视觉特征的融合,从而在保持语义一致性的同时精确控制属性表达;结合跨模态检索引擎、布朗桥机制及属性条件U‑Net实现了端到端的属性控制,能够高效且准确地执行文生图任务。