摘要
本发明公开了一种基于可解释深度强化学习的机器人导航方法,通过预训练互模拟度量来度量两个状态间的不同程度,得到用于聚类的互模拟度量的编码器;使用迭代的决策树模型与机器人导航环境交互,获得用于训练决策树模型的数据集,并根据得到的互模拟度量的编码器完成对数据集的聚类;使用聚类后的数据集对多个决策树模型进行训练,使每个决策树模型学习到对应的状态空间,得到面向可解释深度强化学习的决策树模型;将所得到的决策树模型应用于机器人导航环境。上述方法可以在不增加决策树自身复杂度的基础上,有效增强性能表现,从而获得同时具有良好可解释性以及良好性能表现的决策树模型。