面向多任务的智能体训练方法和决策方法及装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
面向多任务的智能体训练方法和决策方法及装置
申请号:CN202510477428
申请日期:2025-04-16
公开号:CN119988988B
公开日期:2025-08-01
类型:发明专利
摘要
公开了一种面向多任务的智能体训练方法和决策方法及装置,训练方法包括:将训练样本中初始任务状态输入混合编码器获取预估任务特征;将预估任务特征输入共享策略网络生成预估初步动作;将预估任务特征和预估初步动作输入动作校正策略网络生成预估校正动作;将预估初步动作和预估校正动作输入动作校正模块得到预估下一步动作;执行预估下一步动作获取预估下一任务状态;基于初始任务状态、预估下一任务状态和目标任务状态确定稀疏奖励和密集奖励;将预估下一任务状态作为初始任务状态并返回获取预估任务特征步骤,直至完成训练样本中任务;基于每个训练样本所有稀疏奖励、所有密集奖励,更新共享策略网络、动作校正策略网络和混合编码器的参数。
技术关键词
智能体训练方法 人形机器人 面向多任务 混合编码器 校正策略 校正模块 无人机 决策方法 网络 子模块 机械手 地点 无人车 训练样本集 物体 训练装置 指令 计算机程序产品