基于跨模态融合的任务指令生成方法、装置、设备及介质
申请号:CN202511185261
申请日期:2025-08-22
公开号:CN120932052A
公开日期:2025-11-11
类型:发明专利
摘要
本发明涉及人工智能技术领域,可应用于金融科技及医疗健康等业务场景中,公开了一种基于跨模态融合的任务指令生成方法、装置、设备及介质,包括:对输入视频进行解码与降噪生成帧序列,基于帧间相似度识别多帧关键帧;提取关键帧的空间特征形成序列,结合时间特征生成视频时空特征;对输入文本执行语义预处理获得文本语义特征,采集动作传感器信号得到动作特征;将视频时空特征、文本语义特征和动作特征进行融合生成融合特征;基于融合特征生成感知向量并输出任务指令。本发明通过关键帧提取与时空融合机制,结合文本语义特征和动作特征实现多模态融合,利用视频的时序信息和多源感知输入,提高感知表达能力和任务指令生成的准确性。
技术关键词
指令生成方法
视频时空特征
跨模态
关键帧
动作特征
融合特征
语义特征
动作传感器
序列
文本
视频场景理解
生成程序
指令生成装置
生成帧
注意力机制
性能指标数据
特征提取模块
长短期记忆网络
高效视频编码标准