摘要
本申请提供一种基于强化学习优化的多轮自动机器学习智能体系统。包括:任务解析模块,用于生成供MLE智能体调用的初始提示;MLE智能体模块,用于生成可执行代码;代码执行器,用于生成执行结果;评价器,用于输出各指标的归一化值及代码正确性标识;奖励构建模块,用于生成奖励值;强化学习优化器,用于计算群体平均回报与候选优势,并基于候选优势更新MLE智能体模块的策略参数;多轮交互控制模块,用于在多轮交互过程中将上一轮的执行结果与奖励值反馈至MLE智能体模块,控制下一轮代码生成,直至满足预设终止条件。本申请能够实现策略自适应演化、细粒度信用分配的强化学习优化以及多轮闭环的自动化流程改进。