摘要
本发明公开了一种强化学习推荐系统的多模型去噪方法及系统,所述去噪方法包括:获取含噪声交互数据,使用广义矩阵分解模型和其他两种矩阵分解模型作为预测模型对含噪声交互数据进行预测;通过最小化多个预测模型之间拟合的真实用户偏好分布的KL散度,同时最大化给定真实用户偏好条件下观测数据的似然,以此优化预测模型参数;经优化后的预测模型作为教师模型,并通过降噪正样本噪声和降噪负样本噪声对教师模型训练得到去噪教师模型;构建学生模型,并定义目标损失函数。本发明利用上述去噪算法训练去噪用户模型,用于和在线强化学习策略交互,提供更符合用户真实偏好的反馈,提高强化学习推荐方法的噪音鲁棒性和推荐性能。