基于辅助Token机制的多模态图表解析模型、推理方法及设备
申请号:CN202510629484
申请日期:2025-05-16
公开号:CN120564212A
公开日期:2025-08-29
类型:发明专利
摘要
本申请提供一种基于辅助Token机制的多模态图表解析模型、推理方法及设备,包括:视觉编码器用于从图表图像中提取多层次视觉特征表示;大语言模型用于基于多层次视觉特征表示和与文本提示形成Token序列,并动态生成辅助Token,将辅助Token插入至Token序列的前端;辅助解码器用于增强辅助Token的数值特征的表达能力,并采用损失优化机制对数值预测进行约束;原始解码器用于按照预设的格式输出结构化图表数据;可靠性校验模块用于基于原始解码器与辅助解码器的数值预测结果进行评估,生成置信度评分,并筛选出高置信度评分的数值预测数据。相较于现有技术,本申请实现了复杂图表自动解析、数值预测优化和结构化输出。
技术关键词
推理方法
数值
解码器
视觉特征
大语言模型
结构化图表
置信度阈值
多层感知机
多层次
多模态融合机制
计算机程序指令
校验模块
文本
支持高分辨率
图像
非线性
序列