摘要
本发明公开了一种基于验证反馈的大模型强化学习网络配置生成方法,通过网络配置语义解析将输入的网络现象和状态内容转化为语义和动作序列,基于语义动作序列,通过混合动作空间策略生成和神经符号协同的强化学习模型生成符合要求的配置框架与参数,将生成的网络配置信息在数字孪生系统中进行验证与反馈,在虚拟环境中通过形式化验证与性能仿真,模拟真实网络场景,全面评估配置的正确性与性能表现,进而生成包含多维度信息的反馈信号,依据数字孪生验证对策略模型进行修正和优化,最后通过奖励机制来引导智能体对高熵配置项进行调整,优化配置生成大模型。