DeepSeek引爆国产适配的前夜,「硅基流动」已完成亿元融资 | 智涌首发
DeepSeek引爆国产适配的前夜,「硅基流动」已完成亿元融资 | 智涌首发有人预料到DeepSeek能引爆全球吗?至少,DeepSeek-V3发布前,在大模型战场前线“卖铲子”的袁进辉心里也是打鼓的。
有人预料到DeepSeek能引爆全球吗?至少,DeepSeek-V3发布前,在大模型战场前线“卖铲子”的袁进辉心里也是打鼓的。
早在2024年5月,DeepSeek-V2就凭借GPT-4的百分之一的价格,被称作“价格屠夫”、“AI界的拼多多”,彼时,它带来的冲击还停留在底层模型竞争中的定价等具体动作。
今天又得知咱们的老朋友,支付宝推出的智能体开发平台百宝箱,也悄悄接入了 DeepSeek!还一下子直接接入了 DeepSeek-R1 满血版、蒸馏版 32B、蒸馏版 7B、DeepSeek-V3 共四种尺寸。
DeepSeek 的最新模型 DeepSeek-V3 和 DeepSeek-R1 都属于 MoE(混合专家)架构,并在开源世界产生了较大的影响力。特别是 2025 年 1 月开源的 DeepSeek-R1,模型性能可挑战 OpenAI 闭源的 o1 模型。
就在刚刚,历史性的一刻出现了。DeepSeek项目在GitHub平台上的Star数,已经超越了OpenAI。热度最高的DeepSeek-V3,Star数如今已达7.7万。
自 DeepSeek-R1 发布以来,群组相对策略优化(GRPO)因其有效性和易于训练而成为大型语言模型强化学习的热门话题。R1 论文展示了如何使用 GRPO 从遵循 LLM(DeepSeek-v3)的基本指令转变为推理模型(DeepSeek-R1)。
2024年底,一则《雷军千万年薪挖角95后AI天才少女》的热搜引爆全网,让“罗福莉”这个名字再度成为热门话题。事实上,早在2019年,“八篇ACL论文”的佳绩就让她在硕士期间成为知乎上的风云人物。直通阿里星项目进入达摩院、开源大模型DeepSeek-V2的核心开发者、“天才AI美少女萝莉”……这些闪亮的头衔让人不禁好奇,这位95后女孩究竟有何特别之处?
刚刚,大模型竞技场榜单上再添一款国产模型——来自阿里,Qwen2.5-Max,超越了DeepSeek-V3,以总分1332的成绩位列总榜第七。同时还一举超越Claude 3.5 Sonnet、Llama 3.1 405B等模型。
国产大模型云服务平台SiliconCloud(硅基流动),首发上线了基于华为云昇腾云服务的DeepSeek-V3、DeepSeek-R1。 DeepSeek-V3:输入只需1块钱/M tokens,输出2块钱/M tokens
硬件媒体Tom‘s Hardware带来开年最新热议:DeepSeek甚至绕过了CUDA,使用更底层的编程语言做优化。这一次是DeepSeek-V3论文中的更多细节,被人挖掘出来。