
突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR
突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPRDeepseek 的 R1、OpenAI 的 o1/o3 等推理模型的出色表现充分展现了 RLVR(Reinforcement Learning with Verifiable Reward
Deepseek 的 R1、OpenAI 的 o1/o3 等推理模型的出色表现充分展现了 RLVR(Reinforcement Learning with Verifiable Reward
这两天啊,各地高考的成绩终于是陆续公布了。
在大语言模型(LLM)加速进入法律、医疗、金融等高风险应用场景的当下,“安全对齐”不再只是一个选项,而是每一位模型开发者与AI落地者都必须正面应对的挑战。
本文第一作者为韩沛煊,本科毕业于清华大学计算机系,现为伊利诺伊大学香槟分校(UIUC)计算与数据科学学院一年级博士生,接受 Jiaxuan You 教授指导。
清华大学软件学院发布生成式时序大模型——日晷(Sundial)。告别离散化局限,无损处理连续值,基于流匹配生成预测,缓解预训练模式坍塌,支持非确定性概率预测,为决策过程提供动态支持。
服务业卷成麻花,什么样的人形机器人能抢到第一桶金?刚刚出道的「小腰精」,不仅颜值在线,功能更是惊掉下巴——讲解、导览、引流、蹲地干活样样精通,在商场、景区、学校人气爆棚,还是个做家务好能手,堪称服务界全能ACE!
随着大型模型需要处理的序列长度不断增加,注意力运算(Attention)的时间开销逐渐成为主要开销。
只用一个模型,就能边思考边动手,涮火锅、调鸡尾酒,还能听你指挥、自己纠错 —— 未来通用机器人的关键一跃,或许已经到来。
三维场景是构建世界模型、具身智能等前沿科技的关键环节之一。
大数据和大模型已成为具身智能领域业界和学术界的焦点,人们也在期待人形机器人真正步入大数据、大模型时代。然而,行业一直缺乏稳定的人形机器人全身遥操作与数据采集方案。