一种基于模型解耦的视觉语言推理方法、装置和存储介质
申请号:CN202410851982
申请日期:2024-06-28
公开号:CN118709785B
公开日期:2025-08-19
类型:发明专利
摘要
本发明涉及一种基于模型解耦的视觉语言推理方法、装置和存储介质,方法包括:获取待推理的问题描述和视觉图像,并载入预先构建并训练好的视觉语言推理框架中,获得推理结果;所述视觉语言推理框架包括感知模块和推理模块,所述感知模块用于对所述视觉图像进行文本形式的提取和表达,获得文本信息;所述推理模块用于根据所述问题描述和感知模块输出的文本信息进行文本推理,生成回答结果。与现有技术相比,本发明可以显示地解耦模型的感知能力与推理能力,基于该本框架的评估更接近模型的真实能力,利于优化迭代,使得模型取得更好的推理效果。
技术关键词
推理方法
视觉
文本
模块
框架
推理系统
可读存储介质
指令
图像
处理器
存储器
计算机
网络
模板
基础