
先别骂队友,上交如何让DeepSeek R1在分手厨房再也不糊锅?
先别骂队友,上交如何让DeepSeek R1在分手厨房再也不糊锅?在春节的 DeepSeek 大热后,大模型也更多走进了大家的生活。我们越来越多看到各种模型在静态的做题榜单击败人类,解决各种复杂推理问题。但这些静态的测试与模型在现实中的应用还相去甚远。模型除了能进行对话,还在许多更复杂的场景中以各种各样的方式与人类产生互动。除了对话任务外,如何实现大模型与人的实时同步交互协作越来越重要。
在春节的 DeepSeek 大热后,大模型也更多走进了大家的生活。我们越来越多看到各种模型在静态的做题榜单击败人类,解决各种复杂推理问题。但这些静态的测试与模型在现实中的应用还相去甚远。模型除了能进行对话,还在许多更复杂的场景中以各种各样的方式与人类产生互动。除了对话任务外,如何实现大模型与人的实时同步交互协作越来越重要。
CLIP、DINO、SAM 基座的重磅问世,推动了各个领域的任务大一统,也促进了多模态大模型的蓬勃发展。
DeepSeek 提出的 GRPO 可以极大提升 LLM 的强化学习效率,不过其论文中似乎还缺少一些关键细节,让人难以复现出大规模和工业级的强化学习系统。
3 月 18 日上午,字节跳动豆包大模型部门(Seed)召开全员会,由负责模型应用相关工作的朱文佳,与新近加入的负责 AI 基础研究探索工作的吴永辉共同主持。两人谈到了未来的目标,明确 Seed 部门的最重要目标是探索智能上限;同时强调进一步加强组织文化,提高技术开放程度,并考虑推进开源。
超低成本图像生成预训练方案来了——仅需8张GPU训练,就能实现近SOTA的高质量图像生成效果。
在大模型逐步接近AGI之时,"AI对齐"一直被视为守护人类的最后一道防线。
在你看来,开源是一种怎么样的存在? 纯慈善?活菩萨?理想主义者?
第一家全面拥抱DeepSeek的“六小虎”,出现了! 不卖关子,它就是李开复亲任CEO的零一万物。 今日正式上线万智企业大模型一站式平台,宣布提供企业级DeepSeek部署定制解决方案。
大模型同样的上下文窗口,只需一半内存就能实现,而且精度无损? 前苹果ASIC架构师Nils Graef,和一名UC伯克利在读本科生一起提出了新的注意力机制Slim Attention。
角色扮演 AI(Role-Playing Language Agents,RPLAs)作为大语言模型(LLM)的重要应用,近年来获得了广泛关注。