摘要
本发明公开了一种基于强化学习与机器视觉的矿下巡检方法及系统,涉及人工智能技术领域,包括:通过视觉系统采集矿下巡检图像,对图像进行深度化处理;根据深度化处理后的图像对矿下巡检模型进行迭代训练;对训练后的矿下巡检模型进行延迟更新目标策略优化和超参数调整;采集实时巡检图像输入到调整好的矿下巡检模型中,进行实时路径修正,完成矿下巡检。本发明搭建基于TD3强化学习算法的神经网络模型,通过两个Q网络和延迟更新目标策略来减少Q函数的过估计,提高模型的稳定性和收敛性,防止训练过程中出现价值函数的过度估计,提高学习的效率和稳定性,使得在学习过程中能够更好地探索环境并且学习到更优的策略,更好的进行路径规划。