AI资讯新闻榜单内容搜索-RL

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: RL
从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」

在人工智能领域的发展过程中,对大语言模型(LLM)的控制与指导始终是核心挑战之一,旨在确保这些模型既强大又安全地服务于人类社会。早期的努力集中于通过人类反馈的强化学习方法(RLHF)来管理这些模型,成效显著,标志着向更加人性化 AI 迈出的关键一步。

来自主题: AI技术研报
4783 点击    2024-06-23 19:39
ACL 2024论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了

ACL 2024论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了

ACL 2024论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了

最近两天,一篇入选 ACL 2024 的论文《Can Language Models Serve as Text-Based World Simulators?》在社交媒体 X 上引发了热议,就连图灵奖得主 Yann LeCun 也参与了进来。

来自主题: AI技术研报
9436 点击    2024-06-16 18:07
这个团队做了OpenAI没Open的技术,开源OpenRLHF让对齐大模型超简单

这个团队做了OpenAI没Open的技术,开源OpenRLHF让对齐大模型超简单

这个团队做了OpenAI没Open的技术,开源OpenRLHF让对齐大模型超简单

随着大型语言模型(LLM)规模不断增大,其性能也在不断提升。尽管如此,LLM 依然面临着一个关键难题:与人类的价值和意图对齐。在解决这一难题方面,一种强大的技术是根据人类反馈的强化学习(RLHF)。

来自主题: AI技术研报
10070 点击    2024-06-07 10:36
陈丹琦团队新作:微调8B模型超越Claude3 Opus,背后是RLHF新平替

陈丹琦团队新作:微调8B模型超越Claude3 Opus,背后是RLHF新平替

陈丹琦团队新作:微调8B模型超越Claude3 Opus,背后是RLHF新平替

比斯坦福DPO(直接偏好优化)更简单的RLHF平替来了,来自陈丹琦团队。 该方式在多项测试中性能都远超DPO,还能让8B模型战胜Claude 3的超大杯Opus。 而且与DPO相比,训练时间和GPU消耗也都大幅减少。

来自主题: AI资讯
9571 点击    2024-05-27 16:39
全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型

全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型

全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型

为了将大型语言模型(LLM)与人类的价值和意图对齐,学习人类反馈至关重要,这能确保它们是有用的、诚实的和无害的。在对齐 LLM 方面,一种有效的方法是根据人类反馈的强化学习(RLHF)。尽管经典 RLHF 方法的结果很出色,但其多阶段的过程依然带来了一些优化难题,其中涉及到训练一个奖励模型,然后优化一个策略模型来最大化该奖励。

来自主题: AI技术研报
10648 点击    2024-05-26 13:45
OpenAI被冤枉了?斯嘉丽控诉OpenAI声音侵权,背后更多细节曝光:阿尔特曼本人很少参与

OpenAI被冤枉了?斯嘉丽控诉OpenAI声音侵权,背后更多细节曝光:阿尔特曼本人很少参与

OpenAI被冤枉了?斯嘉丽控诉OpenAI声音侵权,背后更多细节曝光:阿尔特曼本人很少参与

智东西5月23日消息,昨天,据《华盛顿邮报》报道,OpenAI的ChatGPT AI语音项目参与者透露,OpenAI并没有要求复制女演员斯嘉丽·约翰逊(Scarlett Johansson)的声音。OpenAI在回应《华盛顿邮报》采访时提供的文件也能证明这一点。

来自主题: AI资讯
10638 点击    2024-05-24 10:28
仅靠开源数据复刻出LLaMA3指令学习效果,在线迭代RLHF全流程解决方案来了

仅靠开源数据复刻出LLaMA3指令学习效果,在线迭代RLHF全流程解决方案来了

仅靠开源数据复刻出LLaMA3指令学习效果,在线迭代RLHF全流程解决方案来了

基于人类反馈的强化学习 (RLHF) 使得大语言模型的输出能够更加符合人类的目标、期望与需求,是提升许多闭源语言模型 Chat-GPT, Claude, Gemini 表现的核心方法之一。

来自主题: AI资讯
6109 点击    2024-05-18 11:18