基于大语言模型的工业视觉多下游任务处理方法

申请号：CN202410710722

申请日期：2024-06-04

公开号：CN118279724B

公开日期：2024-10-08

类型：发明专利

摘要

本发明公开了基于大语言模型的工业视觉多下游任务处理方法，包括以下步骤：获取工业查询图像和提问文本，将所述工业查询图像分割为多个图像块，将图像块送入图像特征编码器提取图像特征，并将图像特征转换为查询图像令牌；识别所述提问文本得到视觉任务类型，根据系统设定、所述提问文本、所述视觉任务类型和所述查询图像令牌，生成大语言模型的输入文本；将所述输入文本所述大语言模型，所述大语言模型根据指定的任务类型、输入的系统设定和任务需求，处理不同的视觉任务。本发明能够高效且准确地处理工业视觉场景中的多种下游任务，并在工业视觉多下游任务上提高大模型的适应性和性能。

技术关键词

大语言模型图像块文本旋转矩形框视觉物体工业令牌计算机可执行指令图像分割图像编码器可读存储介质代表转换器坐标尺寸网格

系统为您推荐了相关专利信息

基于大模型和多智能体的供热系统多工况调度控制方法

调度控制方法供热系统供热机组大语言模型调度控制策略

一种抑郁症复发风险干预方法、装置、设备及介质

风险融合神经网络预警模型历史生理数据基线

一种基于时空图谱的景观文化标签关联挖掘方法及系统

关联挖掘方法景观标签文本语义主题

一种通话数据处理方法、装置、设备、介质及产品

语音通话数据处理方法信息检索主题语义相关度

一种文本引导的图像分割方法

图像分割方法文本标记分支编码器