AI资讯新闻榜单内容搜索-预训练模型

无预训练模型拿下ARC-AGI榜三！Mamba作者用压缩原理挑战Scaling Law

压缩即智能，又有新进展！

来自主题: AI技术研报

8612 点击 2025-12-16 09:56

2比特复数模型媲美全精度！北大通用框架让大模型在手机上也能流畅运行

近日，北京大学团队提出一个直接基于已有预训练模型进行极低比特量化的通用框架——Fairy2i。该框架通过广泛线性表示将实数模型无损转换为复数形式，再结合相位感知量化与递归残差量化，实现了在仅2比特的情况下，性能接近全精度模型的突破性进展。

来自主题: AI技术研报

7293 点击 2025-12-10 14:28

零样本「即插即用」！智源开源RoboBrain-X0，一个基座模型开动不同机器人

为破解机器人产业「一机一调」的开发困境，智源研究院开源了通用「小脑基座」RoboBrain-X0。它创新地学习任务「做什么」而非「怎么动」，让一个预训练模型无需微调，即可驱动多种不同构造的真实机器人，真正实现了零样本跨本体泛化。

来自主题: AI资讯

8364 点击 2025-09-30 11:01

手术刀式去噪突破LLM能力上限，从头预训练模型下游任务平均提高7.2% | 中科院＆阿里

在噪声污染严重影响预训练数据的质量时，如何能够高效且精细地精炼数据？中科院计算所与阿里Qwen等团队联合提出RefineX，一个通过程序化编辑任务实现大规模、精准预训练数据精炼的新框架。

来自主题: AI技术研报

7835 点击 2025-07-22 10:03

李飞飞团队提出架构设计新思路！无需从头训练，直接“嫁接”预训练模型关键组件

预训练模型能否作为探索新架构设计的“底座” ？最新答案是：yes！

来自主题: AI技术研报

10156 点击 2025-06-20 15:38

月之暗面Kimi的技术一点都不落后。

2 月 18 日，月之暗面发布了一篇关于稀疏注意力框架 MoBA 的论文。MoBA 框架借鉴了 Mixture of Experts（MoE）的理念，提升了处理长文本的效率，它的上下文长度可扩展至 10M。并且，MoBA 支持在全注意力和稀疏注意力之间无缝切换，使得与现有的预训练模型兼容性大幅提升。

来自主题: AI技术研报

9109 点击 2025-02-23 11:38