
突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR
突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPRDeepseek 的 R1、OpenAI 的 o1/o3 等推理模型的出色表现充分展现了 RLVR(Reinforcement Learning with Verifiable Reward
Deepseek 的 R1、OpenAI 的 o1/o3 等推理模型的出色表现充分展现了 RLVR(Reinforcement Learning with Verifiable Reward
总是“死记硬背”“知其然不知其所以然”?
第一作者孙秋实是香港大学计算与数据科学学院博士生,硕士毕业于新加坡国立大学数据科学系。
从模型狂热到“ARR决胜” 在一个新兴行业里,投资往往最能说明问题。
6月22日,在 AGI Playground 2025 大会上,主办方靖亚资本、联合主办方 Founder Park、崔牛会一同正式发布了 2025 AI Cloud 100 China 榜单。
Andrej Karpathy从斯洛伐克移民成长为AI领袖,师从李飞飞、参与创建OpenAI并任特斯拉自动驾驶总监。2025年YC演讲提出“软件3.0”和“氛围编程”理念,颠覆编程范式。
美国K12学校也在通过AI助教进行技术升级。近日,美国AI教育科技初创公司Kira Learning面向K12学校推出AI智能体。
细胞治疗,尤其是CAR-T,被誉为“活的药物”,但其开发与生产面临着一个根本性挑战:我们难以精准控制和预测这些活细胞在人体内的最终状态和功能。同一批次生产的CAR-T细胞,有的能高效清除肿瘤,有的却迅速“耗竭”,这种功能异质性是制约疗效、导致高昂制造成本的核心瓶颈。如何通过基因编辑等手段,将细胞调整到最理想的“战斗”状态,是该领域亟待突破的圣杯。
过去几年,随着基于人类偏好的强化学习(Reinforcement Learning from Human Feedback,RLHF)的兴起,强化学习(Reinforcement Learning,RL)已成为大语言模型(Large Language Model,LLM)后训练阶段的关键技术。
TaoAvatar 是由阿里巴巴淘宝 Meta 技术团队研发的 3D 真人数字人技术,这一技术能在手机或 XR 设备上实现 3D 数字人的实时渲染以及 AI 对话的强大功能,为用户带来逼真的虚拟交互体验。