模型预测任务采样的元强化学习和域随机化训练方法

申请号：CN202411934200

申请日期：2024-12-26

公开号：CN119940483A

公开日期：2025-05-06

类型：发明专利

摘要

本申请涉及一种模型预测任务采样的元强化学习和域随机化训练方法，其中，方法包括：构建在线构建的深度生成模型的风险随机函数，且确定其风险函数分布，并推断风险函数分布的近似后验；估算深度生成模型的函数后验分布，以构建目标采集函数，且利用目标采集函数在目标任务空间进行随机采样，得到后验任务自适应损失的预测值和对应的采集数据，并通过预测值和风险学习器预测采集数据的采集分数生成目标情节优化任务批次；确定机器学习器的域随机化和元强化学习更新规则，从而对机器学习器执行在目标零样本或目标小样本的自适应模型中的决策模型更新训练操作。由此，解决了现有技术难以在提高自适应鲁棒性的同时，改善模型的计算效率等问题。

技术关键词

深度生成模型风险机器学习器标识符神经网络参数模型更新变量策略决策数据样本在线计算机程序产品处理器编码表达式训练装置转换单元数学