一种多模态融合的动态零样本图像识别方法及系统

申请号：CN202511054998

申请日期：2025-07-30

公开号：CN120561871A

公开日期：2025-08-29

类型：发明专利

摘要

本发明公开了图像识别技术领域的一种多模态融合的动态零样本图像识别方法及系统，包括将第一数据输入生成器，采用第一融合算法驱动所述生成器生成未见类别视觉特征，其中，所述第一数据包括高斯噪声、语义描述符、文本描述，未见类别视觉特征为生成样本。本发明通过将特征生成与嵌入模型、以及类别层级与实例层级的监督信息进行融合，借助对生成器与嵌入模型进行交替优化，在保证生成的图像质量的前提下，提高嵌入空间的区分能力，同时通过结合多源信息、协同特征生成与嵌入模型、引入动态调节机制的方式，能够有效缓解现有技术中的零样本学习中已见类别和未见类别的训练数据不平衡、类别偏差以及嵌入空间判别能力不足的问题。

技术关键词

视觉特征样本描述符分类器融合算法语义动态非线性多模态噪声文本图像识别技术参数模块嵌入特征注意力机制数据分布