AI资讯新闻榜单内容搜索-RLAIF

深度对比: SFT、ReFT、RHLF、RLAIF、DPO、PPO

最近OpenAI Day2展示的demo可能把ReFT带火了。实际上这不是一个很新的概念，也不是OpenAI原创的论文。接下来，本文对比SFT、ReFT、RHLF、DPO、PPO这几种常见的技术。

来自主题: AI技术研报

10800 点击 2024-12-10 15:01

一文看尽LLM对齐技术：RLHF、RLAIF、PPO、DPO……

为了对齐 LLM，各路研究者妙招连连。

来自主题: AI技术研报

12639 点击 2024-08-05 14:09

模型偏好只与大小有关？上交大全面解析人类与32种大模型偏好的定量组分

在目前的模型训练范式中，偏好数据的的获取与使用已经成为了不可或缺的一环。在训练中，偏好数据通常被用作对齐（alignment）时的训练优化目标，如基于人类或 AI 反馈的强化学习（RLHF/RLAIF）或者直接偏好优化（DPO），而在模型评估中，由于任务的复杂性且通常没有标准答案，则通常直接以人类标注者或高性能大模型（LLM-as-a-Judge）的偏好标注作为评判标准。

来自主题: AI技术研报

12460 点击 2024-03-02 14:58

RLHF再也不需要人类了！谷歌团队研究证明，AI标注已达人类水平

谷歌团队的最新研究提出了，用大模型替代人类，进行偏好标注，也就是AI反馈强化学习（RLAIF）。

来自主题: AI技术研报

5373 点击 2023-09-05 15:35