摘要
本申请提供了一种基于检索增强的离线强化学习策略推理方法及系统,涉及机器学习技术领域,包括:获取目标用户的当前轨迹,所述轨迹是由三元组(状态、动作、累计剩余回报)构成的序列;将当前轨迹编码成查询向量,根据查询向量,从历史向量数据库中检索第一动作;利用离线强化学习方法,为当前轨迹生成第二动作;通过第一动作和第二动作的动态融合,生成增强后的动作,作为最终的决策结果;其中,历史向量数据库是将历史轨迹数据集中每个动作对应的轨迹编码成轨迹向量,由动作及对应的轨迹向量组成历史向量数据库,通过查询向量与历史向量的比较,得到第一动作。本发明在策略推理阶段,引入历史经验来增强检索,以提升决策的准确性和鲁棒性。