摘要
本发明公开了一种基于大模型自博弈的公平推荐方法及系统,所述方法包括:自博弈数据生成环节,基于用户历史行为数据作为正样本,结合当前模型推荐策略生成的推荐结果作为负样本,构建偏好数据集,并通过数据过滤去除正负样本相似度过高的样本;监督训练环节,在预训练的大语言模型基础上,利用所述偏好数据集进行监督训练,通过交叉熵损失优化模型参数,生成初步推荐策略。本发明旨在通过引入自博弈机制,优化大语言模型在推荐任务中的长尾现象,提升推荐系统的多样性与公平性。通过模型的自生成训练数据,提升推荐系统在不同用户群体和应用场景中的性能,增强推荐系统的个性化和多样性,并在长期迭代中提升模型的稳定性与公平性。