
大模型破译甲骨文创下新SOTA!复旦团队推出新框架
大模型破译甲骨文创下新SOTA!复旦团队推出新框架让大模型破译从未见过的甲骨文,准确率拿下新SOTA!
让大模型破译从未见过的甲骨文,准确率拿下新SOTA!
为了降低大模型预训练成本,最近两年,出现了很多新的优化器,声称能相比较AdamW,将预训练加速1.4×到2×。但斯坦福的一项研究,指出不仅新优化器的加速低于宣称值,而且会随模型规模的增大而减弱,该研究证实了严格基准评测的必要性。
机器人终于不用散装大脑了! 字节Seed一个模型就能搞定机器人推理、任务规划和自然语言交互。
模型训练重点在于数据的数量与质量?其实还有一个关键因素—— 数据的出场顺序。
能看懂视频并进行跨模态推理的大模型Keye-VL 1.5,快手开源了。
在端侧 AI 这个热门赛道,华为盘古大模型扔下了一颗 “重磅炸弹” 。
近年来,生成式 AI 和多模态大模型在各领域取得了令人瞩目的进展。然而,在现实世界应用中,动态环境下的数据分布和任务需求不断变化,大模型如何在此背景下实现持续学习成为了重要挑战
苹果研究人员发现,在大模型中,极少量的参数,即便只有0.01%,仍可能包含数十万权重,他们将这一发现称为「超级权重」。超级权重点透了大模型「命门」,使大模型走出「炼丹玄学」。
智东西9月5日消息,刚刚,大模型独角兽月之暗面发布新模型Kimi K2-0905,目前,Kimi应用和网页版中的K2模型已全量升级到Kimi K2-0905。该模型的核心升级点为Agentic Coding能力增强、支持256K上下文、API支持高达60-100Token/s的输出速度、支持Claude Code。
9 月 5 日,全球主流大模型之一 Claude 背后的开发商 Anthropic 发布一则《更新对不受支持地区的销售限制》公告。该公告指出,根据最新政策,立即停止 Claude 提供给多数股权由中国资本持有的集团或其子公司使用。