一种基于视觉语言知识引入的零样本多模态第一视角行为识别方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于视觉语言知识引入的零样本多模态第一视角行为识别方法
申请号:CN202411024976
申请日期:2024-07-29
公开号:CN119203019B
公开日期:2025-10-17
类型:发明专利
摘要
该发明公开了一种基于视觉语言知识引入的零样本多模态第一视角行为识别方法,属于多模态行为识别领域。本发明首先将视觉模态输入预训练的CLIP视觉编码器提取视觉特征,将经过STFT变换的加速度计模态、陀螺仪模态频谱图提取对应的特征,文本通过预训练的CLIP文本编码器提取到文本特征。然后将视觉特征传入到适配器模块,将零样本知识与新的自适应特征知识进行动态结合,得到最终的视觉特征。加速度计模态、陀螺仪模态通过惯性传感器融合模块得到最终的惯性传感器特征。最后将文本、视觉、惯性传感器特征一同输入多模态融合模块,充分考虑不同模态间对齐的问题,有效地提升模态融合的效果。该方法在零样本多模态第一视角行为识别任务上表现令人满意。
技术关键词
视觉特征 多模态 惯性传感器数据 识别方法 适配器 可穿戴智能眼镜 视角 文本编码器 陀螺仪 样本 模块 残差系数 视频 拼接方法 矩阵
系统为您推荐了相关专利信息
智能识别方法 三维点云数据 煤矿井下 采集设备 特征提取单元
终端控制系统 界面 多模态交互 指令 大语言模型
联邦学习方法 数据 多层感知机 多模态 加权特征
医疗数据清洗方法 标识特征 临床决策支持 生命体征监测 术语标准化
信息融合方法 协同学习方法 文本数据提取 表达式 融合特征