基于平均奖励强化学习的机械臂装配方法及系统

申请号：CN202511297431

申请日期：2025-09-11

公开号：CN121018563A

公开日期：2025-11-28

类型：发明专利

摘要

本发明涉及基于平均奖励强化学习的机械臂装配方法及系统。其中的方法包括：采集装配任务执行过程中的当前状态信息，并通过基于扩散模型的模仿学习策略生成动作分块序列；以所述当前状态信息和所述动作分块序列作为输入，采用基于APO算法的残差强化学习策略，对所述动作分块序列进行实时微调，以生成机械臂实际执行动作；通过闭环控制，实时反馈和调整，以使机械臂完成长视距的复杂装配任务。本发明可提升长视距复杂装配任务的完成率和效率。

技术关键词

强化学习策略机械臂序列计算机装置生成动作噪声闭环控制分块技术矩阵可读存储介质算法装配系统误差轨迹元素参数数据时序网络