摘要
本发明所提供的基于模型强化学习的空调控制方法、装置、终端及介质,涉及人工智能技术领域,该方法包括:搭建反映目标建筑热行为的RC模型,作为训练环境模型;构建强化学习智能体,在基于RC模型生成的强化学习仿真环境中对智能体进行训练,得到具有最优空调控制策略的Q表;将Q表部署至目标建筑上搭载的空调系统中,通过智能体基于具有最优空调控制策略的Q表控制空调系统的运行。本发明通过结合RC模型与强化学习的优势,利用强化学习与环境交互的信息,降低了对历史数据的需求,能够在短时间内训练出高效、精准的控制策略,解决了传统强化学习控制方法存在数据需求高、训练时间长,难以快速高效地满足需求响应控制的实际应用需求的问题。