GLM-5架构曝光,智谱两日涨60%:采用DeepSeek同款稀疏注意力
GLM-5架构曝光,智谱两日涨60%:采用DeepSeek同款稀疏注意力不管Pony Alpha是不是智谱的,下一代旗舰大模型GLM-5都要来了。GLM-5采用了DeepSeek-V3/V3.2架构,包括稀疏注意力机制(DSA)和多Token预测(MTP),总参数量745B,是上一代GLM-4.7的2倍。
不管Pony Alpha是不是智谱的,下一代旗舰大模型GLM-5都要来了。GLM-5采用了DeepSeek-V3/V3.2架构,包括稀疏注意力机制(DSA)和多Token预测(MTP),总参数量745B,是上一代GLM-4.7的2倍。
“AI提高了我的生产力,但我却更累了……”最近一篇名为《AI疲惫是真实存在的,但却无人提及》的文章在论坛里爆火,引发了广大开发者的共鸣:
2026 年,那么多机器人上春晚,能给大家表演个包饺子吗?相信这是很多人会好奇的一个问题。
以DeepSeek R1为代表的一系列基于强化学习(RLVR)微调的工作,显著提升了大语言模型的推理能力。但在这股浪潮背后,强化微调的代价却高得惊人。
最近 Cowork 爆火,都说 AI 能自己干活了,那取代个搜索引擎和新闻网站应该是手拿把掐吧。(作者正在办公室瑟瑟发抖:别取代我啊!!)
系统性能优化领域顶级专家Brendan Gregg,正式官宣加入OpenAI。
近日,硅谷知名创业孵化器 Y Combinator 发布了 2026 年春季创业赛道指南(RFS)。作为全球最具影响力的创业加速器,这一传统旨在让创业者窥见 YC 希望他们解决的下一代问题。
“过去,创始人对自己的公司忠心耿耿。如今,只要价钱合适,任何人都可以被挖走。”
大家发现了吗?这个马年春节,一场甚至比春运还要拥挤的「AI 春节大战」早已硝烟弥漫。
马年未至,春节档新模型已经蓄势待发。