摘要
本申请提供一种缓存决策模型训练方法、装置、设备、介质及程序产品,涉及量子技术领域,包括:根据缓存决策模型状态空间、动作空间、奖励函数,通过量子搜索算法,以强化学习算法贝尔曼方程迭代计算每个历史请求状态下,每个缓存动作对应的累积奖励值,直到缓存决策模型收敛,其中在当前迭代回合中执行第一历史请求状态下的一个目标缓存动作的情况下:若当前迭代回合目标缓存动作对应的累积奖励值大于或等于上一迭代回合第一历史请求状态下所有的缓存动作对应的最大累积奖励值,则通过量子操作提高选择目标缓存动作的概率。本申请的方法利用量子搜索算法,提高后续选择好动作的概率以加快强化学习算法的收敛速度,降低缓存决策模型的训练时间。