基于动态路由与低秩混合的图表视觉问答方法及相关装置
申请号:CN202511247576
申请日期:2025-09-03
公开号:CN120723951A
公开日期:2025-09-30
类型:发明专利
摘要
本申请公开了一种基于动态路由与低秩混合的图表视觉问答方法及相关装置,涉及视觉问答技术领域,该方法包括:获取含待处理图表和文本问题的原始数据,通过预训练的双通道融合模型处理生成对应的答案。该模型中,提供视觉编码器提取图表复杂布局的语义特征,文本编码器精准转换文本问题向量,二者提升图表与问题的特征匹配度;图表混合连接结构动态融合数据图和数据表视觉特征,增强跨类型图表适配性;图表低秩混合结构通过LoRA路由网络加权融合相关向量,结合大语言模型层输出实现低秩适配与动态融合,减少训练参数并提升零样本问答能力;两阶段训练策略降低显存损耗。该方法有效提升图表视觉问答的通用性、准确性及零样本性能,降低训练成本。
技术关键词
图表
视觉问答方法
混合连接结构
大语言模型
混合结构
文本编码器
文本特征向量
动态
答案
视觉特征
两阶段
语义特征
视觉问答技术
网络
数据
线性
转换文本
处理器