一种基于Transformer全局语义编码的眼动识别方法

申请号：CN202411380959

申请日期：2024-09-30

公开号：CN119479048B

公开日期：2025-09-26

类型：发明专利

摘要

本发明涉及一种基于Transformer全局语义编码的眼动识别方法，涉及眼动识别领域。包括：根据不同的任务需求采集相应的眼动数据，构建眼动识别数据集；所述眼动数据集包括图像和观看图像对应的眼动数据；根据眼动数据中记录的注视点位置，对相关图像进行注视点处掩码处理，将掩码处理的图像和未被掩码图像作为Transformer模型的输入；对Transformer模型进行预训练；利用预训练的Transformer模型从每幅图像的所有注视点位置提取深层特征，基于深层特征预测基于图像的类别概率；整合基于图像的类别概率得到受试者的综合分类结果。有效解决了现有眼动识别方法对深层语义信息挖掘不足和无法捕捉全局依赖关系的问题。

技术关键词

注视点眼动数据计算机可执行指令眼动识别方法位置提取图像块可读存储介质池化方法计算机程序产品注意力机制计算机系统图像分割处理器视觉训练集标记