
奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式
奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式强化学习改变了大语言模型的后训练范式,可以说,已成为AI迈向AGI进程中的关键技术节点。然而,其中奖励模型的设计与训练,始终是制约后训练效果、模型能力进一步提升的瓶颈所在。
强化学习改变了大语言模型的后训练范式,可以说,已成为AI迈向AGI进程中的关键技术节点。然而,其中奖励模型的设计与训练,始终是制约后训练效果、模型能力进一步提升的瓶颈所在。
我是一个重度的 AI产品使用“患者”说自己是一个患者,是最近发现有几次自己对 AI 生产的“高质量”内容已经没有感觉了,我觉得我深度阅读的能力退化...我最早接触到 AI 可以追溯到大学时期阅读的赫伯特・西蒙的《人工智能科学》这本书,它对人工智能领域所涉及的脑科学、经济学、心理学、设计科学很多学科都做了有意思的解读。
DeepSeek火爆全球,现在美国版“梁文锋”来了。来自美国的互联网券商巨头Robinhood的CEO——Vlad Tenev决定投身人工智能创业浪潮,与Tudor Achim联合打造了一家专注于人工智能的初创公司——Harmonic AI。
LeCun 向 Alexandr Wang 汇报?Meta 内部:是的。 招募了一众 AI 大牛以后,Meta 能吃得消吗?—— 这可能是很多人在问的问题。
中国人民大学高瓴人工智能学院的研究团队提出通过创新模型架构来提升性能,其SPACE模型引入新架构,提升了DNA基础模型的性能与泛化能力,在多项测试中表现优异。
我们认为,“隐私”与“AI”的关系,是关乎未来的一个关键议题,必须被严肃、妥善地解决。我们之所以坚持,是因为这不仅是技术问题,更关乎制度上的“先例”会怎么被建立。
昨天,飞书在上海举办了 2025 年飞书未来无限大会,我们也去现场瞅了瞅。刚进会场,第一感受就是人真多。
最新研究发现,模型的规模和通用语言能力与其处理敏感内容的判断能力并无直接关联,甚至开源模型表现的更好。
无需CUDA代码,给H100加速33%-50%! Flash Attention、Mamba作者之一Tri Dao的新作火了。
大家都有看 Grok4 的发布会吗?Grok4 预热了好几天,没想到马斯克还贴心地选择了国内时间发布,再也不用熬夜看发布会了。