基于自适应格式塔感知的教学示意图视觉定位方法及装置
申请号:CN202411051785
申请日期:2024-08-01
公开号:CN119049033A
公开日期:2024-11-29
类型:发明专利
摘要
本发明公开了一种基于自适应格式塔感知的教学示意图视觉定位方法及装置,涉及教育教学资源解析技术领域,解决了传统大规模标注数据驱动技术无法直接适用的问题,该方法包括:获取包含多张教学示意图的样本集;之后提取高层语义特征、文本描述特征和图块的视觉特征,再构建多模态特征数据集;利用所述多模态特征数据集对预先构建的视觉定位模型进行训练,得到训练好的视觉定位模型,之后进行筛选,筛选完成之后部署在电子设备上,以对待定位教学示意图作视觉定位,并展示给用户。本发明实现了在样本规模受限情况下保障教学示意图视觉定位的准确率,为教育教学场景中多模态检索、问答应用提供良好的技术支撑。
技术关键词
高层语义特征
视觉定位方法
教学
视觉特征
多模态特征
格式
文本
感知特征
多头注意力机制
融合特征
颜色
坐标
对象
样本
数据驱动技术
视觉定位装置
因子