缓存决策模型训练方法、装置、设备、介质及程序产品

申请号：CN202411866440

申请日期：2024-12-18

公开号：CN119740677A

公开日期：2025-04-01

类型：发明专利

摘要

本申请提供一种缓存决策模型训练方法、装置、设备、介质及程序产品，涉及量子技术领域，包括：根据缓存决策模型状态空间、动作空间、奖励函数，通过量子搜索算法，以强化学习算法贝尔曼方程迭代计算每个历史请求状态下，每个缓存动作对应的累积奖励值，直到缓存决策模型收敛，其中在当前迭代回合中执行第一历史请求状态下的一个目标缓存动作的情况下：若当前迭代回合目标缓存动作对应的累积奖励值大于或等于上一迭代回合第一历史请求状态下所有的缓存动作对应的最大累积奖励值，则通过量子操作提高选择目标缓存动作的概率。本申请的方法利用量子搜索算法，提高后续选择好动作的概率以加快强化学习算法的收敛速度，降低缓存决策模型的训练时间。

技术关键词

决策模型训练方法缓存决策方法强化学习算法时延基站数据计算机执行指令搜索算法周期量子纠缠态方程模型训练装置可读存储介质计算机程序产品处理器通信存储器电子设备

系统为您推荐了相关专利信息

基于多智能体深度强化学习的多层卫星网络路由方法、系统

多智能体深度强化学习卫星网络环境强化学习算法多智能体强化学习决策

人工智能驱动的水泥复合材料生命周期优化系统及方法

人工智能驱动水泥复合材料生命周期分析计算机系统上执行实时数据

模具加工精度控制方法、装置、设备和存储介质

精度控制方法编程 PID算法偏差模具

一种用于智慧医院无人配送系统的垂直供能存储基站

无人配送系统存储柜折叠框供能装置基站

基于微波数据自适应时延相位补偿的脑部图像生成方法

微波图像生成方法前馈控制器拉普拉斯时延