一种基于可解释深度强化学习的机器人导航方法

申请号：CN202410914372

申请日期：2024-07-09

公开号：CN118857299A

公开日期：2024-10-29

类型：发明专利

摘要

本发明公开了一种基于可解释深度强化学习的机器人导航方法，通过预训练互模拟度量来度量两个状态间的不同程度，得到用于聚类的互模拟度量的编码器；使用迭代的决策树模型与机器人导航环境交互，获得用于训练决策树模型的数据集，并根据得到的互模拟度量的编码器完成对数据集的聚类；使用聚类后的数据集对多个决策树模型进行训练，使每个决策树模型学习到对应的状态空间，得到面向可解释深度强化学习的决策树模型；将所得到的决策树模型应用于机器人导航环境。上述方法可以在不增加决策树自身复杂度的基础上，有效增强性能表现，从而获得同时具有良好可解释性以及良好性能表现的决策树模型。

技术关键词

决策树模型机器人导航方法深度强化学习度量数据 CART算法编码器 K均值聚类算法定义决策树训练索引策略指数推土机复杂度节点