摘要
本发明涉及人工智能技术领域,可应用于具身智能、金融科技及医疗健康等业务场景中,公开了一种动作指令序列生成方法、装置、设备及介质,包括:获取环境状态信息与多模态传感器数据,提取视觉特征向量与触觉特征向量,基于视觉特征向量与触觉特征向量生成注意力权重,融合视觉特征向量与触觉特征向量生成融合特征向量,构建包含环境状态信息与融合特征向量的强化学习模型状态空间,基于状态空间通过响应任务目标接近事件或障碍物碰撞事件的奖励函数生成动作指令序列。本发明通过多模态信息融合与强化学习状态空间构建的结合,提升了智能体在复杂环境中的感知能力与动作决策能力,显著增强任务执行的自主性、灵活性和稳定性。