AI资讯新闻榜单内容搜索-RL

一文看尽LLM对齐技术：RLHF、RLAIF、PPO、DPO……

为了对齐 LLM，各路研究者妙招连连。

来自主题: AI技术研报

10976 点击 2024-08-05 14:09

首届大模型顶会COLM 高分论文：偏好搜索算法PairS，让大模型进行文本评估更高效

大模型展现出了卓越的指令跟从和任务泛化的能力，这种独特的能力源自 LLMs 在训练中使用了指令跟随数据以及人类反馈强化学习（RLHF）。

来自主题: AI技术研报

10372 点击 2024-08-03 14:29

获得牙科AI领域史上最高融资5800万美元，这只是Pearl的开始

利用Pearl AI来探索牙科的未来

来自主题: AI资讯

7483 点击 2024-08-03 09:28

吴恩达弟子打造arXiv弹幕版，每篇论文都能自由讨论了

网友：学术圈该有的样子！现在，arXiv的每篇论文，都能直接提问讨论了！只需把URL中的arXiv替换成AlphaXiv，就能对任意一篇论文发布提问或讨论。

来自主题: AI资讯

8237 点击 2024-08-02 10:30

4轮暴训，Llama 7B击败GPT-4！Meta等让LLM「分饰三角」自评自进化

Meta、UC伯克利、NYU共同提出元奖励语言模型，给「超级对齐」指条明路：让AI自己当裁判，自我改进对齐，效果秒杀自我奖励模型。

来自主题: AI技术研报

9340 点击 2024-07-31 16:05

RLHF不够用了，OpenAI设计出了新的奖励机制

OpenAI 的新奖励机制，让大模型更听话了。

来自主题: AI技术研报

5932 点击 2024-07-25 18:25

ICML 2024 Oral | DPO是否比PPO更适合LLM，清华吴翼团队最新揭秘

如何让大模型更好的遵从人类指令和意图？如何让大模型有更好的推理能力？如何让大模型避免幻觉？能否解决这些问题，是让大模型真正广泛可用，甚至实现超级智能（Super Intelligence）最为关键的技术挑战。这些最困难的挑战也是吴翼团队长期以来的研究重点，大模型对齐技术（Alignment）所要攻克的难题。

来自主题: AI资讯

11197 点击 2024-07-21 17:10