基于跨模态融合的任务指令生成方法、装置、设备及介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于跨模态融合的任务指令生成方法、装置、设备及介质
申请号:CN202511185261
申请日期:2025-08-22
公开号:CN120932052A
公开日期:2025-11-11
类型:发明专利
摘要
本发明涉及人工智能技术领域,可应用于金融科技及医疗健康等业务场景中,公开了一种基于跨模态融合的任务指令生成方法、装置、设备及介质,包括:对输入视频进行解码与降噪生成帧序列,基于帧间相似度识别多帧关键帧;提取关键帧的空间特征形成序列,结合时间特征生成视频时空特征;对输入文本执行语义预处理获得文本语义特征,采集动作传感器信号得到动作特征;将视频时空特征、文本语义特征和动作特征进行融合生成融合特征;基于融合特征生成感知向量并输出任务指令。本发明通过关键帧提取与时空融合机制,结合文本语义特征和动作特征实现多模态融合,利用视频的时序信息和多源感知输入,提高感知表达能力和任务指令生成的准确性。
技术关键词
指令生成方法 视频时空特征 跨模态 关键帧 动作特征 融合特征 语义特征 动作传感器 序列 文本 视频场景理解 生成程序 指令生成装置 生成帧 注意力机制 性能指标数据 特征提取模块 长短期记忆网络 高效视频编码标准