AI资讯新闻榜单内容搜索-语言模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 语言模型
小众架构赢麻了!通过编辑功能 LLaDA2.1 让100B扩散模型飙出892 tokens/秒的速度!

小众架构赢麻了!通过编辑功能 LLaDA2.1 让100B扩散模型飙出892 tokens/秒的速度!

小众架构赢麻了!通过编辑功能 LLaDA2.1 让100B扩散模型飙出892 tokens/秒的速度!

谁能想到啊,在自回归模型(Autoregressive,AR)当道的现在,一个非主流架构的模型突然杀了回马枪——被长期视为学术玩具的扩散语言模型,直接在复杂编程任务中飙出了892 tokens/秒的速度!

来自主题: AI资讯
9957 点击    2026-02-11 10:47
训练加速1.8倍,推理开销降78%!精准筛选题目高效加速RL训练丨清华KDD

训练加速1.8倍,推理开销降78%!精准筛选题目高效加速RL训练丨清华KDD

训练加速1.8倍,推理开销降78%!精准筛选题目高效加速RL训练丨清华KDD

以DeepSeek R1为代表的一系列基于强化学习(RLVR)微调的工作,显著提升了大语言模型的推理能力。但在这股浪潮背后,强化微调的代价却高得惊人。

来自主题: AI技术研报
8848 点击    2026-02-10 14:19
速递|从LLM到LTM:Fundamental以“数据基础模型”切入,A轮融资2.55亿美元

速递|从LLM到LTM:Fundamental以“数据基础模型”切入,A轮融资2.55亿美元

速递|从LLM到LTM:Fundamental以“数据基础模型”切入,A轮融资2.55亿美元

大规模表格模型(LTM)而非大规模语言模型(LLM)的 Fundamental 公司 Nexus 模型,在多个重要方面突破了当代人工智能实践。该模型具有确定性——即每次被询问相同问题时都会给出相同答案——且不依赖定义当代大多数人工智能实验室模型的 Transformer 架构 。

来自主题: AI资讯
9119 点击    2026-02-09 11:22
登顶Hugging Face论文热榜,LLM重写数据准备的游戏规则

登顶Hugging Face论文热榜,LLM重写数据准备的游戏规则

登顶Hugging Face论文热榜,LLM重写数据准备的游戏规则

来自上海交通大学、清华大学、微软研究院、麻省理工学院(MIT)、上海 AI Lab、小红书、阿里巴巴、港科大(广州)等机构的研究团队,系统梳理了近年来大语言模型在数据准备流程中的角色变化,试图回答一个业界关心的问题:LLM 能否成为下一代数据管道的「智能语义中枢」,彻底重构数据准备的范式?

来自主题: AI技术研报
7898 点击    2026-02-09 11:12
Attention真的可靠吗?上海大学联合南开大学揭示多模态模型中一个被忽视的重要偏置问题

Attention真的可靠吗?上海大学联合南开大学揭示多模态模型中一个被忽视的重要偏置问题

Attention真的可靠吗?上海大学联合南开大学揭示多模态模型中一个被忽视的重要偏置问题

近年来,Vision-Language Models(视觉 — 语言模型)在多模态理解任务中取得了显著进展,并逐渐成为通用人工智能的重要技术路线。然而,这类模型在实际应用中往往面临推理开销大、效率受限的问题,研究者通常依赖 visual token pruning 等策略降低计算成本,其中 attention 机制被广泛视为衡量视觉信息重要性的关键依据。

来自主题: AI技术研报
9225 点击    2026-02-06 10:39
Stable-DiffCoder超越自回归模型!扩散模型在代码生成取得新突破

Stable-DiffCoder超越自回归模型!扩散模型在代码生成取得新突破

Stable-DiffCoder超越自回归模型!扩散模型在代码生成取得新突破

扩散语言模型(Diffusion Language Models, DLLMs)因其多种潜在的特性而备受关注,如能加速的非自回归并行生成特性,能直接起草编辑的特性,能数据增强的特性。然而,其模型能力往往落后于同等规模的强力自回归(AR)模型。

来自主题: AI技术研报
10158 点击    2026-02-06 10:37
VLM剪枝新SOTA:无需重训练,注意力去偏置超越6大主流方案

VLM剪枝新SOTA:无需重训练,注意力去偏置超越6大主流方案

VLM剪枝新SOTA:无需重训练,注意力去偏置超越6大主流方案

近年来,Vision-Language Models(视觉—语言模型)在多模态理解任务中取得了显著进展,并逐渐成为通用人工智能的重要技术路线。

来自主题: AI技术研报
5836 点击    2026-01-31 12:30
JustGRPO:扩散语言模型的极简主义回归

JustGRPO:扩散语言模型的极简主义回归

JustGRPO:扩散语言模型的极简主义回归

扩散语言模型(Diffusion LLMs, dLLMs)因支持「任意顺序生成」和并行解码而备受瞩目。直觉上,打破传统自回归(AR)「从左到右」的束缚,理应赋予模型更广阔的解空间,从而在数学、代码等复杂任务上解锁更强的推理潜力。

来自主题: AI技术研报
9789 点击    2026-01-29 14:55