基于强化学习优化的多轮自动机器学习智能体系统

申请号：CN202511294754

申请日期：2025-09-11

公开号：CN120806041B

公开日期：2025-12-05

类型：发明专利

摘要

本申请提供一种基于强化学习优化的多轮自动机器学习智能体系统。包括：任务解析模块，用于生成供MLE智能体调用的初始提示；MLE智能体模块，用于生成可执行代码；代码执行器，用于生成执行结果；评价器，用于输出各指标的归一化值及代码正确性标识；奖励构建模块，用于生成奖励值；强化学习优化器，用于计算群体平均回报与候选优势，并基于候选优势更新MLE智能体模块的策略参数；多轮交互控制模块，用于在多轮交互过程中将上一轮的执行结果与奖励值反馈至MLE智能体模块，控制下一轮代码生成，直至满足预设终止条件。本申请能够实现策略自适应演化、细粒度信用分配的强化学习优化以及多轮闭环的自动化流程改进。

技术关键词

生成可执行代码智能体系统指标评价器优化器资源监控执行器预训练语言模型策略错误码控制模块标识参数数据因子语义存储模块配额