摘要
一种基于深度强化学习的线路路径规划方案生成方法及系统,方法首先构建规划区域的栅格地图与评价指标体系,并基于Critic法确定指标权重来构建栅格综合成本评价模型,接着以总成本最小为目标构建路径规划模型,并将其描述为马尔科夫决策过程,再将混合噪声及ε‑贪婪策略引入深度确定性策略梯度算法,并改进优先经验回放机制,得到改进的深度确定性策略梯度算法,最后基于该算法训练智能体,输出最优的输电线路规划路径;本发明通过添加混合噪声,增加智能体探索能力,并引入贪婪策略加快算法初段的学习效率和减少探索频率,以减少不必要的试错,最后在优先经验回放机制中融入即时奖励值,帮助智能体精确区分不同经验的重要性,加快智能体学习效率。