
DeepSeek关键RL算法GRPO,有人从头跑通了,贡献完整代码
DeepSeek关键RL算法GRPO,有人从头跑通了,贡献完整代码GRPO(Group Relative Policy Optimization)是 DeepSeek-R1 成功的基础技术之一,我们之前也多次报道过该技术,比如《DeepSeek 用的 GRPO 占用大量内存?有人给出了些破解方法》。
GRPO(Group Relative Policy Optimization)是 DeepSeek-R1 成功的基础技术之一,我们之前也多次报道过该技术,比如《DeepSeek 用的 GRPO 占用大量内存?有人给出了些破解方法》。
近年来,大型语言模型(LLMs)在代码相关的任务上展现了惊人的表现,各种代码大模型层出不穷。这些成功的案例表明,在大规模代码数据上进行预训练可以显著提升模型的核心编程能力。
原来,大型推理模型(Large Reasoning Model,LRM)像人一样,在「用脑过度」也会崩溃,进而行动能力下降。
Transformer 很成功,更一般而言,我们甚至可以将(仅编码器)Transformer 视为学习可交换数据的通用引擎。由于大多数经典的统计学任务都是基于独立同分布(iid)采用假设构建的,因此很自然可以尝试将 Transformer 用于它们。
大概从三四个小时前开始,两家大模型公司潞晨科技创始人尤洋和硅基流动创始人袁进辉,在社交平台公开互怼。先是尤洋在知乎对袁进辉发难,发文《坑人的硅基流动》,尤洋称本来不想发这些东西,但是硅基流动的袁进辉老师频繁在朋友圈里阴阳他。"这家公司疑似组织水军在网上长期黑我。今天DeepSeek有一篇文章指向我,他也在那里煽风点火。"
3月1日,潞晨科技官微发布了两则消息。先是宣布:“尊敬的用户,潞晨云将在一周后停止提供DeepSeek API服务,请尽快用完您的余额。如果没用完,我们全额退款。”后又发布消息:“感谢网友的热心提醒,Colossal-AI此前发布对DeepSeek-R1(671B)模型的LoRA微调,在参数加载过程中因参数名称不匹配的Bug导致Loss异常,已在GitHub线上修复。”
2025年开年,全球AI战场硝烟弥漫。 ChatGPT悄然迭代至GPT-6,在DeepSeek横空出世、在多领域大展拳脚后,马斯克旗下的人工智能公司紧随其后重磅发布了Grok 3系列模型。
DeepSeek“爆火”后,各家医疗企业争相部署似乎已成为春节复工以来的头等大事。据36氪不完全统计,节后复工以来,至少20家以上医疗领域企业公开宣布正在引入DeepSeek。其中虽不乏恒瑞医药、云南白药等传统药企;金域医学、圣湘生物等老牌IVD企业,但表现更活跃的各路AI医疗概念公司,如智云健康、鹰瞳科技、医渡科技、树坤科技等。
在大语言模型 (LLM) 的研究中,与以 Chain-of-Thought 为代表的逻辑思维能力相比,LLM 中同等重要的 Leap-of-Thought 能力,也称为创造力,目前的讨论和分析仍然较少。这可能会严重阻碍 LLM 在创造力上的发展。造成这种困局的一个主要原因是,面对「创造力」,我们很难构建一个合适且自动化的评估流程。
上海市东方医院正式发布人工智能医学大模型“med-go”,其能够有效辅助医生分析复杂疑难和罕见病例,提供精准且透明的临床诊疗建议,赋能人工智能与医疗深度融合。 基层医生的“随身主任医师”