一种基于多模态适配器的第一视角增量行为识别方法

申请号：CN202411654641

申请日期：2024-11-19

公开号：CN119538049B

公开日期：2025-11-18

类型：发明专利

摘要

该发明公开了一种基于多模态适配器的第一视角增量行为识别方法，本发明涉及视频图像处理领域。本发明旨在通过时序蒸馏损失将旧任务识别模型中的时序感知能力迁移到当前任务识别模型中，并结合模态平衡适配器，通过旧任务识别模型的特征高斯采样和当前任务识别模型的特征高斯采样实现分类层对多任务的增量识别。首先在冻结的ImageNet数据集上预训练的Vit‑B/16模型的所有Transformer编码器的前向网络层的前后以残差的形式插入多模态时序感知适配器，实现在Transformer编码器中从视觉模态、加速度模态和陀螺仪模态的特征中提取时序信息，并通过时序蒸馏损失保证当前任务识别模型和旧任务识别模型的时序信息尽可能靠近。最后，通过计算当前任务识别模型的特征均值和方差构建当前任务的特征高斯分布，并结合旧任务识别模型的特征高斯分布实现多任务的特征高斯采样，在当前任务的分类层前插入模态平衡适配器，利用采样特征和模态平衡适配器再次训练当前任务的分类层，以提高分类层对各任务的识别能力。

技术关键词

平衡适配器采样模块陀螺仪多模态生成特征集加速度视觉特征编码器识别方法时序特征视角非线性计算方法多任务蒸馏代表