
ChatGPT「秘方」竟在拖LLM后腿?Karpathy、LeCun联手开怼RLHF!
ChatGPT「秘方」竟在拖LLM后腿?Karpathy、LeCun联手开怼RLHF!RLHF到底是不是强化学习?最近,AI大佬圈因为这个讨论炸锅了。和LeCun同为质疑派的Karpathy表示:比起那种让AlphaGo在围棋中击败人类的强化学习,RLHF还差得远呢。
RLHF到底是不是强化学习?最近,AI大佬圈因为这个讨论炸锅了。和LeCun同为质疑派的Karpathy表示:比起那种让AlphaGo在围棋中击败人类的强化学习,RLHF还差得远呢。
RLHF 与 RL 到底能不能归属为一类,看来大家还是有不一样的看法。
为了对齐 LLM,各路研究者妙招连连。
大模型展现出了卓越的指令跟从和任务泛化的能力,这种独特的能力源自 LLMs 在训练中使用了指令跟随数据以及人类反馈强化学习(RLHF)。
利用Pearl AI来探索牙科的未来
Meta、UC伯克利、NYU共同提出元奖励语言模型,给「超级对齐」指条明路:让AI自己当裁判,自我改进对齐,效果秒杀自我奖励模型。
OpenAI 的新奖励机制,让大模型更听话了。
如何让大模型更好的遵从人类指令和意图?如何让大模型有更好的推理能力?如何让大模型避免幻觉?能否解决这些问题,是让大模型真正广泛可用,甚至实现超级智能(Super Intelligence)最为关键的技术挑战。这些最困难的挑战也是吴翼团队长期以来的研究重点,大模型对齐技术(Alignment)所要攻克的难题。
李飞飞创办World Labs,估值超10亿美元。
「AI教母」创业,3个月就干出了估值10亿的AI独角兽。