AI资讯新闻榜单内容搜索-训练

微软开放3.1T token高质量数据！通用/代码/数学/问答，全领域超越开源

RedStone是一个高效构建大规模指定领域数据的处理管道，通过优化数据处理流程，从Common Crawl中提取了RedStone-Web、RedStone-Code、RedStone-Math和RedStone-QA等数据集，在多项任务中超越了现有开源数据集，显著提升了模型性能。

来自主题: AI技术研报

7648 点击 2025-02-18 20:15

强化学习Scaling Law错了？无需蒸馏，数据量只要1/6，效果还更好

强化学习训练数据越多，模型推理能力就越强？新研究提出LIM方法，揭示提升推理能力的关键在于优化数据质量，而不是数据规模。该方法在小模型上优势尽显。从此，强化学习Scaling Law可能要被改写了！

来自主题: AI技术研报

7295 点击 2025-02-18 20:07

嚯！大语言扩散模型来了，何必只预测下一个token | 人大高瓴&蚂蚁

用扩散模型替代自回归，大模型的逆诅咒有解了!

来自主题: AI技术研报

8684 点击 2025-02-18 14:43

DeepSeek团队新作：把代码变成思维链，大模型推理各种能力全面提升

用代码训练大模型思考，其他方面的推理能力也能提升。

来自主题: AI技术研报

5896 点击 2025-02-18 10:40

光速、君联联合领投，「自变量机器人」一月内完成数亿元融资，加速具身智能大模型训练迭代

36氪获悉，具身智能创业公司“自变量机器人（X Square Robot）”完成数亿元Pre-A++轮融资。本轮融资由光速光合与君联资本领投、北京机器人产业基金、神骐资本跟投。融资将用于下一代统一具身智能通用大模型的训练与场景落地。

来自主题: AI资讯

6997 点击 2025-02-18 10:00

北大彭宇新教授团队开源细粒度多模态大模型Finedefics

尽管多模态大模型在通用视觉理解任务中表现出色，但不具备细粒度视觉识别能力，这极大制约了多模态大模型的应用与发展。针对这一问题，北京大学彭宇新教授团队系统地分析了多模态大模型在细粒度视觉识别上所需的 3 项能力：对象信息提取能力、类别知识储备能力、对象 - 类别对齐能力，发现了「视觉对象与细粒度子类别未对齐」

来自主题: AI资讯

10359 点击 2025-02-17 17:37

Llama模仿Diffusion多模态涨分30%！不卷数据不烧卡，只需共享注意力分布

这次不是卷参数、卷算力，而是卷“跨界学习”——

来自主题: AI技术研报

8681 点击 2025-02-17 14:43

语言模型新范式：首个8B扩散大语言模型LLaDA发布，性能比肩LLaMA 3

近年来，大语言模型（LLMs）取得了突破性进展，展现了诸如上下文学习、指令遵循、推理和多轮对话等能力。目前，普遍的观点认为其成功依赖于自回归模型的「next token prediction」范式。

来自主题: AI技术研报

9126 点击 2025-02-17 14:37

当专业社区遇见DeepSeek最强推理：AI搜索进入「可信思考」时代

知乎直答默默掏出了自己的“底牌”。为啥这么说呢？因为知乎不仅有自己的AI模型，还攒了十多年的中文高质量知识库，再加上真实的问答场景作为AI的“实战训练场”，简直就是AI界的“学霸”。有了DeepSeek-R1的加持，知乎直答的推理能力直接拉满，传统搜索看了直呼“内行”，妥妥成了AI时代的“搜索界天花板”。

来自主题: AI资讯

9589 点击 2025-02-17 10:44

比知识蒸馏好用，田渊栋等提出连续概念混合，再度革新Transformer预训练框架

自然语言 token 代表的意思通常是表层的（例如 the 或 a 这样的功能性词汇），需要模型进行大量训练才能获得高级推理和对概念的理解能力，

来自主题: AI技术研报

6551 点击 2025-02-16 13:12