
业内首次! 全面复现DeepSeek-R1-Zero数学代码能力,训练步数仅需其1/10
业内首次! 全面复现DeepSeek-R1-Zero数学代码能力,训练步数仅需其1/10OpenAI 的 o1 系列和 DeepSeek-R1 的成功充分证明,大规模强化学习已成为一种极为有效的方法,能够激发大型语言模型(LLM) 的复杂推理行为并显著提升其能力。
OpenAI 的 o1 系列和 DeepSeek-R1 的成功充分证明,大规模强化学习已成为一种极为有效的方法,能够激发大型语言模型(LLM) 的复杂推理行为并显著提升其能力。
未来5-10年,AI将改变一切,破解科学难题,治愈所有疾病。这是谷歌DeepMind掌门人Demis Hassabis在最新采访中最大胆的预测。与此同时,哈佛历史学家却警示,AGI到来可能重塑人类文明,成为取代我们的「外星人」。
Transformer作者Ashish Vaswani团队重磅LLM研究!简单指令:「Wait,」就能有效激发LLM显式反思,表现堪比直接告知模型存在错误。
在前AI时代,中国的科技企业的职场上,曾有一批残障人士出现在数据标注的岗位上,发挥所长。
视频生成领域,又出现一位重量级开源选手。
AI 也要 007 工作制了!
DeepSeek-R1是近年来推理模型领域的一颗新星,它不仅突破了传统LLM的局限,还开启了全新的研究方向「思维链学」(Thoughtology)。这份长达142页的报告深入剖析了DeepSeek-R1的推理过程,揭示了其推理链的独特结构与优势,为未来推理模型的优化提供了重要启示。
随着3D Gaussian Splatting(3DGS)成为新一代高效三维建模技术,它的自适应特性却悄然埋下了安全隐患。
论文的第一作者是香港中文大学(深圳)数据科学学院三年级博士生徐俊杰龙,指导老师为香港中文大学(深圳)数据科学学院的贺品嘉教授和微软主管研究员何世林博士。贺品嘉老师团队的研究重点是软件工程、LLM for DevOps、大模型安全。
只靠模型尺寸变大已经不行了?大语言模型(LLM)推理需要强化学习(RL)来「加 buff」。