一种基于蒙特卡洛树搜索的大模型自适应推理方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于蒙特卡洛树搜索的大模型自适应推理方法
申请号:CN202510040263
申请日期:2025-01-10
公开号:CN119831050A
公开日期:2025-04-15
类型:发明专利
摘要
本发明涉及一种基于蒙特卡洛树搜索的大模型自适应推理方法,步骤如下:采用树状结构组织大语言模型的推理过程;使用UCT算法选择待扩展的节点;在扩展新节点时,针对当前选择的节点使用当前推理路径上的所有信息生成下一步推理步骤;执行模拟,基于已有推理步骤继续推理直至得到最终答案,并判断最终答案是否正确;根据正确的最终答案进行反向传播,对当前推理路径上的节点进行奖励更新后,将生成新节点之前的树结构作为提示词,根据提示词生成的节点作为生成数据;依据生成数据对所述大模型进行微调;使用PPO算法对大模型进行强化学习。本发明可以根据当前推理状态自行选择父节点并向节点中添加新的推理节点,最终生成一个较为准确合理的答案。
技术关键词
蒙特卡洛树搜索 推理方法 节点 UCT算法 答案 树状结构 大语言模型 数据 组织 关系
系统为您推荐了相关专利信息
防护方法 多维特征向量 摘要 Softmax函数 时间序列数据库
脉冲控制方法 事件触发机制 李雅普诺夫函数 非线性系统模型 非线性系统控制技术
硒鼓芯片 模拟测试环境 打印机实例 批量 适配器卡座
防护方法 节点 智能探针 加密 预测网络状态
关节 路径规划方法 节点 钻头 直线油缸