AI资讯新闻榜单内容搜索-奖励模型

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 奖励模型

全面超越DPO：陈丹琦团队提出简单偏好优化SimPO，还炼出最强8B开源模型

全面超越DPO：陈丹琦团队提出简单偏好优化SimPO，还炼出最强8B开源模型

全面超越DPO：陈丹琦团队提出简单偏好优化SimPO，还炼出最强8B开源模型

为了将大型语言模型（LLM）与人类的价值和意图对齐，学习人类反馈至关重要，这能确保它们是有用的、诚实的和无害的。在对齐 LLM 方面，一种有效的方法是根据人类反馈的强化学习（RLHF）。尽管经典 RLHF 方法的结果很出色，但其多阶段的过程依然带来了一些优化难题，其中涉及到训练一个奖励模型，然后优化一个策略模型来最大化该奖励。

来自主题: AI技术研报

11784 点击 2024-05-26 13:45

谷歌提出全新RLHF方法：消除奖励模型，且无需对抗性训练

谷歌提出全新RLHF方法：消除奖励模型，且无需对抗性训练

谷歌提出全新RLHF方法：消除奖励模型，且无需对抗性训练

大型语言模型（LLM）的成功离不开「基于人类反馈的强化学习（RLHF）」。RLHF 可以大致可以分为两个阶段，首先，给定一对偏好和不偏好的行为，训练一个奖励模型，通过分类目标为前者分配更高的分数。

来自主题: AI技术研报

5848 点击 2024-02-10 13:02

深挖RLHF潜力，复旦语言和视觉团队创新奖励模型优化，让大模型更对齐

深挖RLHF潜力，复旦语言和视觉团队创新奖励模型优化，让大模型更对齐

深挖RLHF潜力，复旦语言和视觉团队创新奖励模型优化，让大模型更对齐

复旦团队进一步挖掘 RLHF 的潜力，重点关注奖励模型（Reward Model）在面对实际应用挑战时的表现和优化途径。

来自主题: AI技术研报

4424 点击 2024-01-16 10:16

OpenAI神秘Q*毁灭人类？爆火「Q*假说」竟牵出世界模型，全网AI大佬长文热议

OpenAI神秘Q毁灭人类？爆火「Q假说」竟牵出世界模型，全网AI大佬长文热议

OpenAI神秘Q*毁灭人类？爆火「Q*假说」竟牵出世界模型，全网AI大佬长文热议

传闻中OpenAI的Q*，已经引得AI大佬轮番下场。AI2研究科学家Nathan Lambert和英伟达高级科学家Jim Fan都激动的写下长文，猜测Q*和思维树、过程奖励模型、AlphaGo有关。人类离AGI，已是临门一脚了？

来自主题: AI资讯

7835 点击 2023-11-25 22:46

上一页当前第4页,共4页下一页