一种人类偏好辅助的飞行员行为模仿方法和系统

申请号：CN202510269386

申请日期：2025-03-07

公开号：CN120143843A

公开日期：2025-06-13

类型：发明专利

摘要

本发明公开一种人类偏好辅助的飞行员行为模仿方法和系统，利用非完美飞行员演示和有限的人类偏好进行高效的无人机控制策略学习，所述非完美飞行员演示是指由人类飞行员无人机控制场景中采样的轨迹集合；所述无人机控制场景建模为一个马尔科夫决策过程；所述轨迹为某种方法在环境中连续采样多个时间步构成的状态动作对的集合；所述人类偏好为人类对于两条轨迹的偏好，即比较两条轨迹并给出某条轨迹由于另一条轨迹的结果；所述策略为在环境中采样的某种方法；本发明学到的策略性能可以突非完美演示的性能瓶颈。本发明可以应用于无人机飞行控制技术领域，具有广泛的应用前景。

技术关键词

神经网络参数轨迹人类 SAC算法无人机梯度下降法数据更新超参数计数器控制策略计算机设备可读存储介质场景采样模块处理器决策