基于检索增强的文生图方法、装置、设备及介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于检索增强的文生图方法、装置、设备及介质
申请号:CN202510848991
申请日期:2025-06-23
公开号:CN120747274A
公开日期:2025-10-03
类型:发明专利
摘要
本发明涉及金融、医疗健康及人工智能技术领域,提供一种基于检索增强的文生图方法、装置、设备及介质,能够将目标文本提示输入至跨模态检索引擎进行处理,为扩散过程提供引导条件,实现细粒度属性控制;基于布朗桥机制将生成图像与范例图像进行对齐,让扩散过程严格对齐范例属性特征,确保生成图像在细粒度属性上的精准性,能够基于桥接项迭代预测清晰图像;基于属性条件U‑Net动态调整文本提示的特征与范例图像的特征的相对重要性,有效协调文本语义和视觉特征的融合,从而在保持语义一致性的同时精确控制属性表达;结合跨模态检索引擎、布朗桥机制及属性条件U‑Net实现了端到端的属性控制,能够高效且准确地执行文生图任务。
技术关键词
文本编码器 图像编码器 注意力 sigmoid函数 跨模态 计算机设备 噪声预测器 随机噪声 机制 可读存储介质 人工智能技术 动态 指令 多层感知机 医疗健康 视觉特征 转换单元 数值