基于文生图模型的语义对齐方法、装置、设备及介质

申请号：CN202510722352

申请日期：2025-05-30

公开号：CN120653999A

公开日期：2025-09-16

类型：发明专利

摘要

本发明涉及人工智能技术领域，可应用于金融科技、医疗健康等业务系统平台中，公开了一种基于文生图模型的语义对齐方法、装置、设备及介质，包括：获取文本训练集，对文本进行语义增强，得到增强文本内容，提取增强文本内容对应的全局语义特征向量；利用分词器将增强文本内容转换为标记序列；对标记序列进行索引映射，得到目标输入标识，并生成对应的注意力掩码；利用编码器对目标输入标识进行编码，得到标记级向量矩阵；根据注意力掩码对标记级向量矩阵进行自注意力处理，得到细粒度语义特征向量；根据细粒度语义特征向量和全局语义特征向量生成指导信息，利用指导信息得到对齐语义。本发明可以提升文生图模型中文本与图像语义对齐的准确性。

技术关键词

对齐方法标记注意力矩阵图文标识细粒度特征文本编码器索引序列转换模块编码向量语义特征提取视觉融合特征训练集可读存储介质