AI资讯新闻榜单内容搜索-强化学习

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 强化学习
DSPy还能整RAG的活?LeReT: 用强化学习实现LLM智能检索

DSPy还能整RAG的活?LeReT: 用强化学习实现LLM智能检索

DSPy还能整RAG的活?LeReT: 用强化学习实现LLM智能检索

斯坦福大学奥马尔(Omar)的DSPy研究团队最近更新了他们的项目文档,发了很多不错的案例,以及很多国际知名企业的DSPy用例,这些可能对您的项目有启发。

来自主题: AI资讯
3421 点击    2024-11-04 10:09
Anthropic挖走DeepMind强化学习大牛、AlphaGo核心作者Julian Schrittwieser

Anthropic挖走DeepMind强化学习大牛、AlphaGo核心作者Julian Schrittwieser

Anthropic挖走DeepMind强化学习大牛、AlphaGo核心作者Julian Schrittwieser

从 AlphaGo、AlphaZero 、MuZero 到 AlphaCode、AlphaTensor,再到最近的 Gemini 和 AlphaProof,Julian Schrittwieser 的工作成果似乎比他的名字更广为人知。

来自主题: AI资讯
7620 点击    2024-10-29 18:00
与OpenAI o1技术理念相似,TDPO-R算法有效缓解奖励过优化问题

与OpenAI o1技术理念相似,TDPO-R算法有效缓解奖励过优化问题

与OpenAI o1技术理念相似,TDPO-R算法有效缓解奖励过优化问题

OpenAI 最近发布的 o1 模型在数学、代码生成和长程规划等复杂任务上取得了突破性进展,据业内人士分析披露,其关键技术在于基于强化学习的搜索与学习机制。通过迭代式的自举过程,o1 基于现有大语言模型的强大推理能力,生成合理的推理过程,并将这些推理融入到其强化学习训练过程中。

来自主题: AI技术研报
9390 点击    2024-10-26 17:01
率先突破大规模多类数据损坏问题!中科大离线强化学习新方式入选NeurIPS 2024

率先突破大规模多类数据损坏问题!中科大离线强化学习新方式入选NeurIPS 2024

率先突破大规模多类数据损坏问题!中科大离线强化学习新方式入选NeurIPS 2024

机器人控制和自动驾驶的离线数据损坏问题有解了! 中科大王杰教授团队 (MIRA Lab) 提出了一种变分贝叶斯推断方法,有效地提升了智能决策模型的鲁棒性。

来自主题: AI技术研报
3496 点击    2024-10-20 11:43
Bengio团队新论文!KL正则化有漏洞,强化学习新策略:不要做我可能不会做的事情

Bengio团队新论文!KL正则化有漏洞,强化学习新策略:不要做我可能不会做的事情

Bengio团队新论文!KL正则化有漏洞,强化学习新策略:不要做我可能不会做的事情

在强化学习中,当智能体的奖励机制与设计者的意图不一致时,可能会导致不理想的行为,而KL正则化作为一种常用的解决方案,通过限制智能体的行为来防止这种情况,但智能体在某些情况下仍可能表现出意料之外的行为;为了提高智能体的可靠性,研究人员提出了新的理论方案,通过改变指导原则来增强智能体在未知情况下的谨慎性。

来自主题: AI技术研报
6237 点击    2024-10-19 13:55
首个o1复现开源RL框架OpenR来了,UCL、上交等高校联合团队发布

首个o1复现开源RL框架OpenR来了,UCL、上交等高校联合团队发布

首个o1复现开源RL框架OpenR来了,UCL、上交等高校联合团队发布

o1 作为 OpenAI 在推理领域的最新模型,大幅度提升了 GPT-4o 在推理任务上的表现,甚至超过了平均人类水平。o1 背后的技术到底是什么?OpenAI 技术报告中所强调的强化学习和推断阶段的 Scaling Law 如何实现?

来自主题: AI技术研报
4432 点击    2024-10-14 15:37
TPAMI | 安全强化学习方法、理论与应用综述,慕工大、同济、伯克利等深度解析

TPAMI | 安全强化学习方法、理论与应用综述,慕工大、同济、伯克利等深度解析

TPAMI | 安全强化学习方法、理论与应用综述,慕工大、同济、伯克利等深度解析

现实世界中的强化学习在应用过程中也面临着巨大的挑战,尤其是如何保证系统的安全性。为了解决这一问题,安全强化学习(Safe Reinforcement Learning, Safe RL)应运而生,成为当前学术界和工业界关注的焦点。

来自主题: AI技术研报
3925 点击    2024-10-08 17:23