
中科大ICLR2025:特定领域仅用5%训练数据,知识准确率提升14%
中科大ICLR2025:特定领域仅用5%训练数据,知识准确率提升14%让大语言模型更懂特定领域知识,有新招了!
来自主题: AI技术研报
8227 点击 2025-04-07 15:26
让大语言模型更懂特定领域知识,有新招了!
最近OpenAI Day2展示的demo可能把ReFT带火了。实际上这不是一个很新的概念,也不是OpenAI原创的论文。 接下来,本文对比SFT、ReFT、RHLF、DPO、PPO这几种常见的技术。
SFT、RLHF 和 DPO 都是先估计 LLMs 本身的偏好,再与人类的偏好进行对齐
OpenAI的秘密武器、ChatGPT背后功臣RLHF,被开源了。来自Hugging Face、加拿大蒙特利尔Mila研究所、网易伏羲AI Lab的研究人员从零开始复现了OpenAI的RLHF pipeline,罗列了25个关键实施细节。