一种基于在线树搜索的训练方法、装置、设备及介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于在线树搜索的训练方法、装置、设备及介质
申请号:CN202510414845
申请日期:2025-04-03
公开号:CN120338059A
公开日期:2025-07-18
类型:发明专利
摘要
本发明涉及网络信息技术领域,尤其涉及一种基于在线树搜索的训练方法、装置、设备及介质,其中,方法包括:基于熵引导树搜索对给定提示信息进行初始化处理,生成引导树根;根据熵值选择引导树根的分叉点,对引导树的分叉点进行扩展处理,得到树结构;利用蒙特卡洛方法计算树结构中的节点值,基于树结构中的节点值计算奖励信号并强化树搜索策略模型。通过树搜索增强探索多样性,利用过程监督提高学习效率,形成一个闭环优化系统,显著提升大语言模型在数学、编程等复杂推理任务上的能力,具有广泛的应用价值。
技术关键词
蒙特卡洛方法 计算机执行指令 树根 节点 在线 策略 网络信息技术 可读存储介质 梯度方法 大语言模型 信号 令牌 训练装置 处理器通信 存储器 平方根 电子设备 模块