AI资讯新闻榜单内容搜索-RL

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: RL
吴恩达弟子打造arXiv弹幕版,每篇论文都能自由讨论了

吴恩达弟子打造arXiv弹幕版,每篇论文都能自由讨论了

吴恩达弟子打造arXiv弹幕版,每篇论文都能自由讨论了

网友:学术圈该有的样子! 现在,arXiv的每篇论文,都能直接提问讨论了! 只需把URL中的arXiv替换成AlphaXiv,就能对任意一篇论文发布提问或讨论。

来自主题: AI资讯
7754 点击    2024-08-02 10:30
4轮暴训,Llama 7B击败GPT-4!Meta等让LLM「分饰三角」自评自进化

4轮暴训,Llama 7B击败GPT-4!Meta等让LLM「分饰三角」自评自进化

4轮暴训,Llama 7B击败GPT-4!Meta等让LLM「分饰三角」自评自进化

Meta、UC伯克利、NYU共同提出元奖励语言模型,给「超级对齐」指条明路:让AI自己当裁判,自我改进对齐,效果秒杀自我奖励模型。

来自主题: AI技术研报
8896 点击    2024-07-31 16:05
RLHF不够用了,OpenAI设计出了新的奖励机制

RLHF不够用了,OpenAI设计出了新的奖励机制

RLHF不够用了,OpenAI设计出了新的奖励机制

OpenAI 的新奖励机制,让大模型更听话了。

来自主题: AI技术研报
5634 点击    2024-07-25 18:25
ICML 2024 Oral | DPO是否比PPO更适合LLM,清华吴翼团队最新揭秘

ICML 2024 Oral | DPO是否比PPO更适合LLM,清华吴翼团队最新揭秘

ICML 2024 Oral | DPO是否比PPO更适合LLM,清华吴翼团队最新揭秘

如何让大模型更好的遵从人类指令和意图?如何让大模型有更好的推理能力?如何让大模型避免幻觉?能否解决这些问题,是让大模型真正广泛可用,甚至实现超级智能(Super Intelligence)最为关键的技术挑战。这些最困难的挑战也是吴翼团队长期以来的研究重点,大模型对齐技术(Alignment)所要攻克的难题。

来自主题: AI资讯
10665 点击    2024-07-21 17:10
AI教母李飞飞获融资,3个月干出一个AI独角兽

AI教母李飞飞获融资,3个月干出一个AI独角兽

AI教母李飞飞获融资,3个月干出一个AI独角兽

World Labs被曝已完成2轮融资,最新一轮融资金额约1亿美元。

来自主题: AI资讯
8764 点击    2024-07-18 13:22
从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」

在人工智能领域的发展过程中,对大语言模型(LLM)的控制与指导始终是核心挑战之一,旨在确保这些模型既强大又安全地服务于人类社会。早期的努力集中于通过人类反馈的强化学习方法(RLHF)来管理这些模型,成效显著,标志着向更加人性化 AI 迈出的关键一步。

来自主题: AI技术研报
4279 点击    2024-06-23 19:39