基于剪枝的策略模型训练方法、装置、设备及介质

申请号：CN202511188928

申请日期：2025-08-22

公开号：CN120930708A

公开日期：2025-11-11

类型：发明专利

摘要

本发明涉及模型训练技术领域，可应用于金融科技和医疗健康领域，公开了一种基于剪枝的策略模型训练方法、装置、设备及介质，方法包括：获取多个第一完成项集合，针对每一所述第一完成项集合中的完成项，根据奖励函数计算所述完成项的优势值；根据所述优势值对所述第一完成项集合进行剪枝得到第一有效完成项子集；根据所述第一有效完成项子集和所述第一完成项集合检测是否满足补充完成项条件；若满足所述补充完成项条件，则重新获取多个第二完成项集合，并对所述第二完成项集合进行剪枝得到第二有效完成项子集；根据所述第一有效完成项子集和所述第二有效完成项子集对新策略模型进行训练。提高了策略模型训练的效率。

技术关键词

模型训练方法策略模型训练技术模型训练装置可读存储介质医疗健康处理器计算机设备存储器金融科技