一种空间对齐与选择性权重激活的持续离线强化学习方法

申请号：CN202510248451

申请日期：2025-03-04

公开号：CN119761454A

公开日期：2025-04-04

类型：发明专利

摘要

本申请提供了一种空间对齐与选择性权重激活的持续离线强化学习方法，包括：针对持续学习任务序列中的每一个任务，使用该任务对应的数据集，利用量化空间对齐方法将状态空间和动作空间对齐，以得到相同空间下的状态序列和动作序列；获取单时间步奖励序列，并利用奖励函数计算出累积折扣奖励和序列；基于该任务的状态序列，将累积折扣奖励和序列作为扩散模型的条件信息，利用被激活的扩散模型生成给定状态序列，再利用逆动力学模型生成给定动作序列；将各任务累积的折扣奖励和的最大化作为目标，进行持续强化学习，以更新各任务对应的扩散模型参数，和逆动力学模型参数。该方法使各任务的强化学习过程在同样的空间上进行，并有效缓解了灾难性遗忘。

技术关键词

状态向量数据强化学习方法序列逆动力学模型对齐方法掩码矩阵编码器数据分布解码器重构参数离线关系