一种用于离线强化学习的模型融合方法

申请号：CN202511276449

申请日期：2025-09-08

公开号：CN120763876A

公开日期：2025-10-10

类型：发明专利

摘要

本发明公开了一种用于离线强化学习的模型融合方法，包括：获取初始模型集合；对所述初始模型集合中每个模型的操作原始变量进行张量典型相关性分析，生成变换矩阵；将所述初始模型集合中的其中一个模型作为基准模型，并通过所述变换矩阵将除所述基准模型之外的其他所有模型的操作原始变量映射至低维度子空间，再回映射至所述基准模型的空间，生成中间模型集合；对所述中间模型集合中每个模型的操作原始变量进行融合，生成融合后的操作原始变量；根据融合后的操作原始变量，生成最终融合模型。本发明提出的用于离线强化学习的模型融合方法，性能更优异，表现更鲁棒，可以解决现有模型对于机器人控制的训练抖动大，同一任务多个模型方差大等问题。

技术关键词

模型融合方法典型相关性分析离线基准参数变量协方差矩阵机器人控制可读存储介质注意力机制决策计算机复杂度序列处理器