一种使用多模态模型进行齿轮图像精准识别的方法及系统

申请号：CN202410762047

申请日期：2024-06-13

公开号：CN118537705B

公开日期：2025-07-11

类型：发明专利

摘要

本发明公开了一种使用多模态模型进行齿轮图像精准识别的方法及系统，该方法通过融合ResNet和Llama2的多模态Transformer模型实现齿轮图像识别和；所述方法包含以下步骤：S100：数据采集和预处理；从各类开源的零件图库和/或零件标准文件中收集图像数据和文本数据，S200：动态样本对选择策略；S300：建立多模态模型；所述多模态模型包含图像处理分支和文本处理分支；图像处理分支使用ResNet模型进行图像嵌入和模型训练；文本处理分支使用LlaMa2模型获取文本描述的嵌入和深层文本学习；S400：高级融合策略；S500：模型训练和评估；本发明不仅优化了齿轮图像的识别过程，还通过集成到工业自动化系统中，提高了整体的工程效率和数据安全性。

技术关键词

文本多模态样本齿轮分支图像处理图像特征向量数据图像嵌入深层网络结构工业自动化系统融合策略生成图像特征注意力机制零件构建知识图谱三元组