摘要
本发明涉及计算机技术领域,提供混合排序模型训练方法、旅游搜索混合排序方法及设备。混合排序模型训练方法包括:构建样本数据:包括状态数据、动作数据和奖励数据,状态数据表征各旅游品类的候选对象和用户的属性,动作数据表征各旅游品类的候选对象的混排结果,奖励数据表征用户对混排结果的操作;利用样本数据训练基于强化学习构建的混合排序模型:根据当前状态的状态数据和动作数据计算当前状态的动作价值,根据下一状态的状态数据和动作数据计算下一状态的动作价值,根据当前状态的奖励数据、当前状态的动作价值和下一状态的动作价值,计算模型损失并调整模型参数。本发明通过强化学习和个性化推荐,提升旅游搜索的效率和用户体验。