摘要
本发明公开了一种基于细粒度特征融合的部分多模态哈希方法,包括如下步骤:准备多模态检索数据集,数据集包括图像模态数据、文本模态数据、样本类别等信息,分别用VGGNet网络和词袋(bag‑of‑words,BoW)向量对原始数据进行特征提取,并将数据集划分为样本具有完整模态的部分和样本缺失部分模态的部分;构建缺失模态补齐模块,从样本具有完整模态的部分中随机采样出锚点集,利用锚点的模态特征补齐样本缺失的模态特征;随后将补齐的模态特征作为“真实值”来监督训练依靠样本已有模态特征直接跨模态生成另一缺失模态特征;构建深层语义信息模块,将样本完整的模态特征分别分解成每个哈希位对应的K个浅层语义信息,引入Transformer编码器,以自注意力方式自适应地捕捉浅层语义信息间的内在关系,得到编码后的深层语义信息;利用得到的深层语义信息进行细粒度的特征融合,并最终得到K位二进制的哈希码。本发明充分利用所有样本,减少了补齐缺失模态特征时引入的噪声,能够有效应对样本缺失部分模态的多模态数据检索场景。