基于大语言模型的工业视觉多下游任务处理方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于大语言模型的工业视觉多下游任务处理方法
申请号:CN202410710722
申请日期:2024-06-04
公开号:CN118279724B
公开日期:2024-10-08
类型:发明专利
摘要
本发明公开了基于大语言模型的工业视觉多下游任务处理方法,包括以下步骤:获取工业查询图像和提问文本,将所述工业查询图像分割为多个图像块,将图像块送入图像特征编码器提取图像特征,并将图像特征转换为查询图像令牌;识别所述提问文本得到视觉任务类型,根据系统设定、所述提问文本、所述视觉任务类型和所述查询图像令牌,生成大语言模型的输入文本;将所述输入文本所述大语言模型,所述大语言模型根据指定的任务类型、输入的系统设定和任务需求,处理不同的视觉任务。本发明能够高效且准确地处理工业视觉场景中的多种下游任务,并在工业视觉多下游任务上提高大模型的适应性和性能。
技术关键词
大语言模型 图像块 文本 旋转矩形框 视觉 物体 工业 令牌 计算机可执行指令 图像分割 图像编码器 可读存储介质 代表 转换器 坐标 尺寸 网格
系统为您推荐了相关专利信息
调度控制方法 供热系统 供热机组 大语言模型 调度控制策略
风险 融合神经网络 预警模型 历史生理数据 基线
关联挖掘方法 景观 标签 文本 语义主题
语音 通话数据处理方法 信息检索 主题 语义相关度
图像分割方法 文本 标记 分支 编码器