AI资讯新闻榜单内容搜索-Qwen

扩散语言模型有MoE版了！蚂蚁&人大从头训练LLaDA-MoE，将完全开源

挑战自回归的扩散语言模型刚刚迎来了一个新里程碑：蚂蚁集团和人大联合团队用 20T 数据，从零训练出了业界首个原生 MoE 架构扩散语言模型 LLaDA-MoE。该模型虽然激活参数仅 1.4B，但性能可以比肩参数更多的自回归稠密模型 Qwen2.5-3B，而且推理速度更快。这为扩散语言模型的技术可行性提供了关键验证。

来自主题: AI技术研报

6798 点击 2025-09-15 08:30

Meta开源MobileLLM-R1模型，不到1B参数，用1/10的训练就超越了Qwen3

本周五，Meta AI 团队正式发布了 MobileLLM-R1。这是 MobileLLM 的全新高效推理模型系列，包含两类模型：基础模型 MobileLLM-R1-140M-base、MobileLLM-R1-360M-base、MobileLLM-R1-950M-base 和它们相应的最终模型版。

来自主题: AI技术研报

7334 点击 2025-09-14 11:16

实测！Qwen下一代基础架构突袭！秒解AIME数学竞赛题，提速10倍+性价比提升10倍

Qwen下一代模型架构，抢先来袭！ Qwen3-Next发布，Qwen团队负责人林俊旸说，这就是Qwen3.5的抢先预览版。基于Qwen3-Next，团队先开源了Qwen3-Next-80B-A3B-Base。

来自主题: AI资讯

9301 点击 2025-09-12 17:21

全新MoE架构！阿里开源Qwen3-Next，训练成本直降9成

训练、推理性价比创新高。大语言模型（LLM），正在进入 Next Level。周五凌晨，阿里通义团队正式发布、开源了下一代基础模型架构 Qwen3-Next。总参数 80B 的模型仅激活 3B ，性能就可媲美千问 3 旗舰版 235B 模型，也超越了 Gemini-2.5-Flash-Thinking，实现了模型计算效率的重大突破。

来自主题: AI资讯

9519 点击 2025-09-12 10:10

Qwen又立功，全球最快开源模型诞生，超2000 tokens/秒！

全球最快的开源大模型来了——速度达到了每秒2000个tokens！虽然只有320亿参数（32B），吞吐量却是超过典型GPU部署的10倍以上的那种。它就是由阿联酋的穆罕默德·本·扎耶德人工智能大学（MBZUAI）和初创公司G42 AI合作推出的K2 Think。

来自主题: AI资讯

7998 点击 2025-09-10 23:15

拜拜Claude！阿里最强万亿模型编程秒了Opus4，实测在此

总参数达到1万亿，阿里迄今为止最大的模型来了！没错，就是前几日大家期待已久的Qwen3-Max-Preview （Instruct）。

来自主题: AI产品测评

7070 点击 2025-09-07 12:30

断供？会“刻意练习”的Qwen2.5-3B，竟然超越Claude3.5！斯坦福最新

来自斯坦福的研究者们最近发布的一篇论文（https://arxiv.org/abs/2509.01684）直指RL强化学习在机器学习工程（Machine Learning Engineering）领域的两个关键问题，并克服了它们，最终仅通过Qwen2.5-3B便在MLE任务上超越了仅依赖提示（prompting）的、规模更大的静态语言模型Claude3.5。

来自主题: AI资讯

6245 点击 2025-09-06 11:35

刚刚，阿里首个超万亿参数新王登基！Qwen3-Max屠榜全SOTA，碾压DeepSeek V3.1

阿里迄今为止，参数最大的模型诞生了！昨夜，Qwen3-Max-Preview（Instruct）官宣上线，超1万亿参数性能爆表。在全球主流权威基准测试中，Qwen3-Max-Preview狂揽非推理模型「C」位，直接碾压Claude-Opus 4（Non-Thinking）、Kimi-K2、DeepSeek-V3.1。

来自主题: AI资讯

9231 点击 2025-09-06 10:16

AI也邪修！Qwen3改Bug测试直接搜GitHub，太拟人了

大模型也会玩信息差了。 Qwen3在基准测试中居然学会了钻空子。

来自主题: AI资讯

6389 点击 2025-09-04 15:26

多模态新旗舰MiniCPM-V 4.5：8B 性能超越 72B，高刷视频理解又准又快

今天，我们正式开源 8B 参数的面壁小钢炮 MiniCPM-V 4.5 多模态旗舰模型，成为行业首个具备“高刷”视频理解能力的多模态模型，看得准、看得快，看得长！高刷视频理解、长视频理解、OCR、文档解析能力同级 SOTA，且性能超过 Qwen2.5-VL 72B，堪称最强端侧多模态模型。

来自主题: AI资讯

8611 点击 2025-08-26 23:30