摘要
本发明提供一种智能对战学习样本自动生成方法和装置。该方法包括:设置对弈双方采用相同的神经网络模型;对双方进行第一次优化以获取初始权重信息;第一次优化过程具体包括:对双方均先进行随机初始化权重作为初始权重再进行自对弈下棋,完成设定的自对弈下棋次数后,双方分别选择一个自己胜m1子的棋局对应的权重信息作为自己的初始权重信息;对双方进行后续优化迭代,直至达到设定迭代次数,得到最优选手;其中,每次优化过程具体包括:双方均以上次优化后的最终权重信息作为初始权重再进行自对弈下棋,完成设定的自对弈下棋次数后,选出所有双方胜m2子的学习样本,使双方互相学习,得到双方本次优化后的最终权重信息。