摘要
本发明涉及模型训练技术领域,可应用于金融科技和医疗健康领域,公开了一种基于剪枝的策略模型训练方法、装置、设备及介质,方法包括:获取多个第一完成项集合,针对每一所述第一完成项集合中的完成项,根据奖励函数计算所述完成项的优势值;根据所述优势值对所述第一完成项集合进行剪枝得到第一有效完成项子集;根据所述第一有效完成项子集和所述第一完成项集合检测是否满足补充完成项条件;若满足所述补充完成项条件,则重新获取多个第二完成项集合,并对所述第二完成项集合进行剪枝得到第二有效完成项子集;根据所述第一有效完成项子集和所述第二有效完成项子集对新策略模型进行训练。提高了策略模型训练的效率。