摘要
本发明属于强化学习和渗透测试技术领域,本发明公开了一种分布式多智能体网络渗透方法、装置及存储介质,将处于同一个网段上但特征信息不同的主机划分成不同的子网;在基于分布式因果强化学习的攻击路径发现任务中,在各自的子网域分别放置一个智能体进行节点扫描,将扫描的信息输入到时序卷积因果模型中,输出表示漏洞类型的时空特征信息;聚合网络状态信息,得到主机状态序列;向每个智能体输入所述主机状态序列,以使智能体基于所述主机状态序列执行一系列动作获取并共享每个智能体的渗透经验,迭代直至因果强化学习模型收敛,得到训练好的因果强化学习模型。优点:使得智能体状态、动作空间爆炸等问题得到有效缓解,加快训练效率。