基于多模态大模型的电力图文交互方法、系统及相关设备
申请号:CN202510177581
申请日期:2025-02-18
公开号:CN120125972A
公开日期:2025-06-10
类型:发明专利
摘要
一种基于多模态大模型的电力图文交互方法、系统及相关设备,涉及人工智能技术领域,电力图文交互方法包括收集电力图片与通用领域图片,对预先建立的电力视觉编码器进行训练;构建多模态大型语言模型,并通过训练完成的电力视觉编码器修改多模态大型语言模型自带的通用视觉编码器,得到电力图文大模型;构建电力图文多任务标注数据集,并对得到的电力图文大模型进行微调;使用微调之后的电力图文大模型,搭建服务,对输入的图片及问题进行回答。本发明在多模态大模型中引入专业领域的视觉编码器,将电力视觉编码器的输出特征送入一个新的视觉适配器,与通用视觉适配器特征对齐、融合后,送入解码器,提升了多模态大模型对专业领域图像的分析能力。
技术关键词
图文
电力
多模态
交互方法
变换器模块
图片
分辨率
交互系统
输出特征
解码器
适配器
标记
多任务
视觉
搭建模块
图像重建方法
数据