摘要
本发明公开了一种基于强化学习的互联网积分动态激励机制设计方法,包括如下步骤:S1、构建用户行为数据集;S2、采用自然语言处理技术生成情境标签;S3、使用情境自适应奖励算法计算奖励数值;S4、通过奖励数值以及用户行为反馈,结合用户的任务参与情况和反馈回路,动态调整奖励策略;S5、使用门控循环单元模型预测用户未来的行为趋势,生成用户的行为预测结果;S6、结合混沌搜索策略和狼群优化算法对奖励策略进行动态优化,获得优化后的奖励策略;S7、评估奖励的有效性和用户兴趣变化,基于A3C算法获得最终全局奖励策略,实现实时动态调整互联网积分激励机制。本发明利用情境自适应奖励算法和优化技术等,实现了动态调整互联网积分激励策略。