经由交叉注意力免费局部化文本到图像生成的系统和方法
申请号:CN202410744940
申请日期:2024-06-11
公开号:CN119107384A
公开日期:2024-12-10
类型:发明专利
摘要
经由交叉注意力免费局部化文本到图像生成的系统和方法。一种方法公开了在模型的交叉注意力层处接收描述第一对象的第一文本数据和描述第一场景的第二文本数据,其中第一文本数据包括第一对象的位置描述,利用具有交叉注意力层的模型,连接第一文本数据和第二文本数据以生成提示;生成至少由所述位置构造的所广播位置掩码;生成与描述了第一场景的第二文本数据相关联的所广播全1矩阵;利用提示的单独线性投影计算键矩阵和值矩阵;利用线性投影计算查询矩阵;响应于连接所广播位置掩码和所广播全1矩阵来生成所广播位置矩阵;利用所述查询矩阵、所述键矩阵和所广播位置矩阵来生成交叉注意力图;并输出最终图像。
技术关键词
文本
注意力
矩阵
数据
对象
预训练模型
场景
图像
线性
像素
输入接口
令牌
处理器
编程
计算机
元素