AI资讯新闻榜单内容搜索-语言模型

里程碑时刻！100B扩散语言模型跑出892 Tokens /秒，AI的另一条路走通了

扩散语言模型（dLLM），这个曾被认为是「小众赛道」的研究方向，如今终于迎来了质变。

来自主题: AI技术研报

8489 点击 2026-02-11 15:26

小众架构赢麻了！通过编辑功能 LLaDA2.1 让100B扩散模型飙出892 tokens/秒的速度！

谁能想到啊，在自回归模型（Autoregressive，AR）当道的现在，一个非主流架构的模型突然杀了回马枪——被长期视为学术玩具的扩散语言模型，直接在复杂编程任务中飙出了892 tokens/秒的速度！

来自主题: AI资讯

9957 点击 2026-02-11 10:47

训练加速1.8倍，推理开销降78%！精准筛选题目高效加速RL训练丨清华KDD

以DeepSeek R1为代表的一系列基于强化学习（RLVR）微调的工作，显著提升了大语言模型的推理能力。但在这股浪潮背后，强化微调的代价却高得惊人。

来自主题: AI技术研报

8848 点击 2026-02-10 14:19

AI看图一本正经胡说八道？「一拉一推」让模型看得全又准｜微软x清华

随着视觉-语言模型（VLM）推理能力不断增强，一个隐蔽的问题逐渐浮现：很多错误不是推理没做好，而是“看错了”。

来自主题: AI技术研报

7383 点击 2026-02-09 14:56

速递｜从LLM到LTM：Fundamental以“数据基础模型”切入，A轮融资2.55亿美元

大规模表格模型（LTM）而非大规模语言模型（LLM）的 Fundamental 公司 Nexus 模型，在多个重要方面突破了当代人工智能实践。该模型具有确定性——即每次被询问相同问题时都会给出相同答案——且不依赖定义当代大多数人工智能实验室模型的 Transformer 架构。

来自主题: AI资讯

9119 点击 2026-02-09 11:22

登顶Hugging Face论文热榜，LLM重写数据准备的游戏规则

来自上海交通大学、清华大学、微软研究院、麻省理工学院（MIT）、上海 AI Lab、小红书、阿里巴巴、港科大（广州）等机构的研究团队，系统梳理了近年来大语言模型在数据准备流程中的角色变化，试图回答一个业界关心的问题：LLM 能否成为下一代数据管道的「智能语义中枢」，彻底重构数据准备的范式？

来自主题: AI技术研报

7898 点击 2026-02-09 11:12

Attention真的可靠吗？上海大学联合南开大学揭示多模态模型中一个被忽视的重要偏置问题

近年来，Vision-Language Models（视觉 — 语言模型）在多模态理解任务中取得了显著进展，并逐渐成为通用人工智能的重要技术路线。然而，这类模型在实际应用中往往面临推理开销大、效率受限的问题，研究者通常依赖 visual token pruning 等策略降低计算成本，其中 attention 机制被广泛视为衡量视觉信息重要性的关键依据。

来自主题: AI技术研报

9225 点击 2026-02-06 10:39