AI资讯新闻榜单内容搜索-RL

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
搜索: RL
首个o1复现开源RL框架OpenR来了,UCL、上交等高校联合团队发布

首个o1复现开源RL框架OpenR来了,UCL、上交等高校联合团队发布

首个o1复现开源RL框架OpenR来了,UCL、上交等高校联合团队发布

o1 作为 OpenAI 在推理领域的最新模型,大幅度提升了 GPT-4o 在推理任务上的表现,甚至超过了平均人类水平。o1 背后的技术到底是什么?OpenAI 技术报告中所强调的强化学习和推断阶段的 Scaling Law 如何实现?

来自主题: AI技术研报
4251 点击    2024-10-14 15:37
综合RLHF、DPO、KTO优势,统一对齐框架UNA来了

综合RLHF、DPO、KTO优势,统一对齐框架UNA来了

综合RLHF、DPO、KTO优势,统一对齐框架UNA来了

随着大规模语言模型的快速发展,如 GPT、Claude 等,LLM 通过预训练海量的文本数据展现了惊人的语言生成能力。然而,即便如此,LLM 仍然存在生成不当或偏离预期的结果。这种现象在推理过程中尤为突出,常常导致不准确、不符合语境或不合伦理的回答。为了解决这一问题,学术界和工业界提出了一系列对齐(Alignment)技术,旨在优化模型的输出,使其更加符合人类的价值观和期望。

来自主题: AI技术研报
7547 点击    2024-10-10 12:21
颠覆认知:大模型不可靠,越大越不可靠?最新研究登上 Nature

颠覆认知:大模型不可靠,越大越不可靠?最新研究登上 Nature

颠覆认知:大模型不可靠,越大越不可靠?最新研究登上 Nature

“通用人工智能(AGI)的设计和开发,需要进行根本性改变。” 人工智能(AI)模型的参数规模越大,生成的答案就越准确?就更加可信? 还真不一定!

来自主题: AI资讯
3046 点击    2024-09-27 10:31
AI会「说谎」,RLHF竟是帮凶

AI会「说谎」,RLHF竟是帮凶

AI会「说谎」,RLHF竟是帮凶

虽然 RLHF 的初衷是用来控制人工智能(AI),但实际上它可能会帮助 AI 欺骗人类。

来自主题: AI资讯
4433 点击    2024-09-23 15:17
李飞飞创业之后首个专访:视觉空间智能与语言一样根本

李飞飞创业之后首个专访:视觉空间智能与语言一样根本

李飞飞创业之后首个专访:视觉空间智能与语言一样根本

不久之前,李飞飞教授的空间智能创业公司 World Labs 以及全明星的创业阵容正式亮相。 随后,李飞飞与另一位联合创始人 Justin Johnson 接受了 a16z 的专访。

来自主题: AI资讯
3439 点击    2024-09-23 15:12