只需1/4预算,性能反超基线:阿里高德提出Tree-GRPO,高效破解智能体RL难题
只需1/4预算,性能反超基线:阿里高德提出Tree-GRPO,高效破解智能体RL难题对于大模型的强化学习已在数学推理、代码生成等静态任务中展现出不俗实力,而在需要与开放世界交互的智能体任务中,仍面临「两朵乌云」:高昂的 Rollout 预算(成千上万的 Token 与高成本的工具调用)和极其稀疏的「只看结果」的奖励信号。
对于大模型的强化学习已在数学推理、代码生成等静态任务中展现出不俗实力,而在需要与开放世界交互的智能体任务中,仍面临「两朵乌云」:高昂的 Rollout 预算(成千上万的 Token 与高成本的工具调用)和极其稀疏的「只看结果」的奖励信号。
近日,蚂蚁集团正式开源业界首个高性能扩散语言模型(Diffusion Large Language Model,dLLM)推理框架 dInfer。
根据 Sensor Tower 数据显示,2025 H1 AI 应用的下载量达到 17 亿次,增长 67%,IAP 收入总计达到 19 亿美元,增幅达到 100.6%。在走过了概念验证阶段后,AI 应用正成为一股很强的增长动力,给已经相对平静的应用市场注入了活力。
朋友们,以后谁再跟我炫耀他去看 NBA 比赛,只是晒门票和山顶照,我都会笑而不语。 NBA 中国赛时隔六年回归,作为一个老球迷,原本我只想一睹球星的风采,买几件球衣和纪念品在朋友圈炫耀一番。 但接下来
从“AI围猎”到“AI守护”,这才是AI打开中老年的正确方式。
为什么大模型,在执行长时任务时容易翻车?这让一些专家,开始质疑大模型的推理能力,认为它们是否只是提供了「思考的幻觉」。近日,剑桥大学等机构的一项研究证明:问题不是出现在推理上,而是出在大模型的执行能力上。
大语言模型在RLVR训练中面临的“熵困境”,有解了!
这是一份为正在开发 AI Agent 的产品经理准备的完整指南,介绍了 Agent 架构、编排模式等话题。
这位女演员刚出道 同行就对她大喊:“F**k off!” 文 | 羊羊 编辑 | 羊羊、小小树 在上周的SNL节目中,联合主持人科林·乔斯特讲了一个关于AI的笑话。 据报道,好莱坞的经纪公司有意签约一
两位哈佛学者通过研究6200万份简历和近2亿条招聘职位数据,揭示了AI对就业带来的真实、残酷的冲击:它不是无差别地针对所有人,而是在大量“吞噬”初级岗位,让那些刚刚踏入社会的年轻人,面临着空前陡峭、狭窄的职业起跑线。与此同时,为数众多的普通院校毕业生群体受到的冲击更为显著。