AI资讯新闻榜单内容搜索-Tree-GRPO

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: Tree-GRPO

只需1/4预算，性能反超基线：阿里高德提出Tree-GRPO，高效破解智能体RL难题

对于大模型的强化学习已在数学推理、代码生成等静态任务中展现出不俗实力，而在需要与开放世界交互的智能体任务中，仍面临「两朵乌云」：高昂的 Rollout 预算（成千上万的 Token 与高成本的工具调用）和极其稀疏的「只看结果」的奖励信号。

来自主题: AI技术研报

9259 点击 2025-10-15 12:07