AI资讯新闻榜单内容搜索-RL

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
搜索: RL
OpenAI o1 self-play RL 技术路线推演

OpenAI o1 self-play RL 技术路线推演

OpenAI o1 self-play RL 技术路线推演

OpenAI的self-play RL新模型o1最近交卷,直接引爆了关于对于self-play的讨论。

来自主题: AI技术研报
7584 点击    2024-09-21 14:20
黄仁勋,投了李飞飞

黄仁勋,投了李飞飞

黄仁勋,投了李飞飞

黄仁勋,投了李飞飞

来自主题: AI资讯
4923 点击    2024-09-16 19:45
李飞飞任CEO,空间智能公司World Labs亮相,全明星阵容曝光

李飞飞任CEO,空间智能公司World Labs亮相,全明星阵容曝光

李飞飞任CEO,空间智能公司World Labs亮相,全明星阵容曝光

World Labs 的创始团队中,有 ImageNet、NeRF、Style Transfer 和 Gaussian Splats 作者在列。

来自主题: AI资讯
4701 点击    2024-09-14 15:56
LLM的范式转移:RL带来新的 Scaling Law

LLM的范式转移:RL带来新的 Scaling Law

LLM的范式转移:RL带来新的 Scaling Law

从几周前 Sam Altman 在 X 上发布草莓照片开始,整个行业都在期待 OpenAI 发布新模型。根据 The information 的报道,Strawberry 就是之前的 Q-star,其合成数据的方法会大幅提升 LLM 的智能推理能力,尤其体现在数学解题、解字谜、代码生成等复杂推理任务。这个方法也会用在 GPT 系列的提升上,帮助 OpenAI 新一代 Orion。

来自主题: AI资讯
7357 点击    2024-08-31 11:19
RL 是 LLM 的新范式

RL 是 LLM 的新范式

RL 是 LLM 的新范式

AGI 正在迎来新范式,RL 是 LLM 的秘密武器。

来自主题: AI资讯
8168 点击    2024-08-27 10:36
一文搞懂SFT、RLHF、DPO、IFT

一文搞懂SFT、RLHF、DPO、IFT

一文搞懂SFT、RLHF、DPO、IFT

SFT、RLHF 和 DPO 都是先估计 LLMs 本身的偏好,再与人类的偏好进行对齐

来自主题: AI资讯
5458 点击    2024-08-22 17:04