摘要
本发明公开一种人类偏好辅助的飞行员行为模仿方法和系统,利用非完美飞行员演示和有限的人类偏好进行高效的无人机控制策略学习,所述非完美飞行员演示是指由人类飞行员无人机控制场景中采样的轨迹集合;所述无人机控制场景建模为一个马尔科夫决策过程;所述轨迹为某种方法在环境中连续采样多个时间步构成的状态动作对的集合;所述人类偏好为人类对于两条轨迹的偏好,即比较两条轨迹并给出某条轨迹由于另一条轨迹的结果;所述策略为在环境中采样的某种方法;本发明学到的策略性能可以突非完美演示的性能瓶颈。本发明可以应用于无人机飞行控制技术领域,具有广泛的应用前景。