基于文本增强和动态多模态匹配的食品图像分类方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于文本增强和动态多模态匹配的食品图像分类方法
申请号:CN202510632110
申请日期:2025-05-16
公开号:CN120563895A
公开日期:2025-08-29
类型:发明专利
摘要
本发明公开了基于文本增强和动态多模态匹配的食品图像分类方法,包括输入食品图像,使用ViT编码器提取图像特征,使用Qwen VL大模型为图像生成文本描述,将生成的文本描述输入文本编码器生成文本嵌入;使用自适应匹配机制分别计算图像‑文本‑相似度和文本‑图像相似度;分别进行模态内和跨模态特征融合,并对特征进行拼接和变换;计算对比损失函数、分类损失函数以及总损失函数,反向传播进行多目标优化;对融合特征应用softmax函数得到图像类别概率。本发明结合自注意力与双向交叉注意力机制引导特征权重动态分配,联合对比损失、分类损失进行多目标优化,实现跨模态语义高效融合,全面提升食品图像分类的精度与泛化能力。
技术关键词
食品图像分类 多模态 文本编码器 融合特征 交叉注意力机制 动态 Softmax函数 标记 图像类别标签 模态特征 符号 分类方法 跨模态