摘要
本发明公开了世界模型驱动的决策模型训练方法、系统、设备及产品,涉及人工智能技术领域。本方案通过目标视频数据和扩散生成模型生成初始世界模型,并使用基于三阶运动先验的扩散损失函数、动态损失函数和结构保持损失函数三种不同的损失函数对初始世界模型进行微调,实现了短期与长程预测的物理一致性和高频细节保真;进一步利用世界模型预测的不确定性自动生成奖励函数,提高了训练效率;根据目标视频数据和世界模型闭环训练决策模型,实现了环境认知与策略进化的协同优化;最后能够将训练完成的世界模型与决策模型整合至目标服务器,实现了感知‑决策‑运动执行的闭环控制,具备低延迟、高鲁棒性和易扩展性,提高了自动驾驶系统的安全性。