一种基于Transformer全局语义编码的眼动识别方法
申请号:CN202411380959
申请日期:2024-09-30
公开号:CN119479048B
公开日期:2025-09-26
类型:发明专利
摘要
本发明涉及一种基于Transformer全局语义编码的眼动识别方法,涉及眼动识别领域。包括:根据不同的任务需求采集相应的眼动数据,构建眼动识别数据集;所述眼动数据集包括图像和观看图像对应的眼动数据;根据眼动数据中记录的注视点位置,对相关图像进行注视点处掩码处理,将掩码处理的图像和未被掩码图像作为Transformer模型的输入;对Transformer模型进行预训练;利用预训练的Transformer模型从每幅图像的所有注视点位置提取深层特征,基于深层特征预测基于图像的类别概率;整合基于图像的类别概率得到受试者的综合分类结果。有效解决了现有眼动识别方法对深层语义信息挖掘不足和无法捕捉全局依赖关系的问题。
技术关键词
注视点
眼动数据
计算机可执行指令
眼动识别方法
位置提取
图像块
可读存储介质
池化方法
计算机程序产品
注意力机制
计算机系统
图像分割
处理器
视觉
训练集
标记