摘要
本发明涉及人工智能技术领域,提供一种基于动态特征缓存的动作生成方法、装置、设备及介质,应用于金融、医疗健康养老业务场景中,能够构建行为目标代理系数,打破传统缓存仅优化噪声预测误差的局限;基于相对熵、可学习路由参数及目标代理系数构建目标损失函数,能够有效约束决策一致性、保护任务回报,并平衡缓存效率;基于动作‑感知协同的教师‑学生机制训练动作生成模型,能够使学生模型有效学习教师模型;利用学生模型基于可学习路由参数进行特征融合,基于混合表征序列生成可选动作序列的目标动作概率分布,以选择最佳目标动作,能够在生成动作时动态复用历史特征以减少重复计算,在保证决策稳定性的同时还提高了响应效率。