一种基于多模态表征融合的专利图像少样本分类方法

申请号：CN202510341956

申请日期：2025-03-21

公开号：CN120375133A

公开日期：2025-07-25

类型：发明专利

摘要

本发明涉及专利信息分析技术领域，尤其涉及一种基于多模态表征融合的专利图像少样本分类方法。所述方法包括以下步骤：通过设计语言分支、视觉分支以及视觉辅助分支构建混合预训练模型；获取所输入对应的专利图像少样本并进行图像特征并行提取和文本描述特征生成，得到专利图像文本提示描述特征；通过采用注意力机制设计跨模态融合层并进行多模态表征融合和特征融合损失计算，以得到语言分支和视觉分支之间的对比学习损失以及视觉辅助分支损失；对混合预训练模型进行模型融合优化以输出融合特征，并构建专利图像少样本分类框架以执行对应的专利图像少样本分类工作。本发明能够充分融合学习专利图像样本对应的特征表示以提高模型的分类效果。

技术关键词

样本分类方法预训练模型视觉特征提取分支图像多模态文本编码器图像编码器矩阵分类工作大语言模型图像类别词嵌入向量负载特征融合特征跨模态