摘要
本发明涉及一种基于强化学习的磁导丝控制方法、系统及仿真系统,所述方法包括:建模为马尔可夫决策过程,所述马尔可夫决策过程包括状态集合、动作集合和奖励函数,所述状态集合指外部磁体和磁导丝的运行状态,所述动作集合指外部磁体和磁导丝的可执行操作,所述奖励函数用于评估磁导丝运动的优劣;在所述马尔可夫决策过程确定的框架内,采用深度确定性策略梯度算法对智能体进行训练,所述状态集合为智能体的输入,所述动作集合为智能体的输出,所述奖励函数为智能体的评价标准,得到最优策略;基于所述最优策略控制所述磁场和导丝推送模块,进而控制所述磁导丝。本发明通过上述设置,无需精确建模即可在复杂场景中实现磁导丝的精准控制。