摘要
本发明涉及人工智能技术领域,特别是涉及面向个性化推荐的深度学习强化学习系统及方法,包含用户操作数据存储模块存储历史操作数据,预处理模块对其进行处理,嵌入模块将处理后的数据转化为用户和物品的低维向量,强化学习决策模块是核心,其双网络结构单元构建目标与动作网络,状态表示单元构建层次化状态,奖励计算单元算综合奖励,经验回放单元存储并采样经验,策略选择单元调整探索利用平衡,数据输入模块提取实时行为特征输入模型,评分反馈模块收集用户反馈,构建奖励函数并用于模型更新,从而实现精准推荐,通过双网络异步更新架构和优先级经验回放机制,提高了训练收敛速度和模型性能。