AI资讯新闻榜单内容搜索-Qwen

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: Qwen
扩散语言模型有MoE版了!蚂蚁&人大从头训练LLaDA-MoE,将完全开源

扩散语言模型有MoE版了!蚂蚁&人大从头训练LLaDA-MoE,将完全开源

扩散语言模型有MoE版了!蚂蚁&人大从头训练LLaDA-MoE,将完全开源

挑战自回归的扩散语言模型刚刚迎来了一个新里程碑:蚂蚁集团和人大联合团队用 20T 数据,从零训练出了业界首个原生 MoE 架构扩散语言模型 LLaDA-MoE。该模型虽然激活参数仅 1.4B,但性能可以比肩参数更多的自回归稠密模型 Qwen2.5-3B,而且推理速度更快。这为扩散语言模型的技术可行性提供了关键验证。

来自主题: AI技术研报
6798 点击    2025-09-15 08:30
Meta开源MobileLLM-R1模型,不到1B参数,用1/10的训练就超越了Qwen3

Meta开源MobileLLM-R1模型,不到1B参数,用1/10的训练就超越了Qwen3

Meta开源MobileLLM-R1模型,不到1B参数,用1/10的训练就超越了Qwen3

本周五,Meta AI 团队正式发布了 MobileLLM-R1。 这是 MobileLLM 的全新高效推理模型系列,包含两类模型:基础模型 MobileLLM-R1-140M-base、MobileLLM-R1-360M-base、MobileLLM-R1-950M-base 和它们相应的最终模型版。

来自主题: AI技术研报
7334 点击    2025-09-14 11:16
实测!Qwen下一代基础架构突袭!秒解AIME数学竞赛题,提速10倍+性价比提升10倍

实测!Qwen下一代基础架构突袭!秒解AIME数学竞赛题,提速10倍+性价比提升10倍

实测!Qwen下一代基础架构突袭!秒解AIME数学竞赛题,提速10倍+性价比提升10倍

Qwen下一代模型架构,抢先来袭! Qwen3-Next发布,Qwen团队负责人林俊旸说,这就是Qwen3.5的抢先预览版。 基于Qwen3-Next,团队先开源了Qwen3-Next-80B-A3B-Base。

来自主题: AI资讯
9301 点击    2025-09-12 17:21
全新MoE架构!阿里开源Qwen3-Next,训练成本直降9成

全新MoE架构!阿里开源Qwen3-Next,训练成本直降9成

全新MoE架构!阿里开源Qwen3-Next,训练成本直降9成

训练、推理性价比创新高。 大语言模型(LLM),正在进入 Next Level。 周五凌晨,阿里通义团队正式发布、开源了下一代基础模型架构 Qwen3-Next。总参数 80B 的模型仅激活 3B ,性能就可媲美千问 3 旗舰版 235B 模型,也超越了 Gemini-2.5-Flash-Thinking,实现了模型计算效率的重大突破。

来自主题: AI资讯
9519 点击    2025-09-12 10:10
Qwen又立功,全球最快开源模型诞生,超2000 tokens/秒!

Qwen又立功,全球最快开源模型诞生,超2000 tokens/秒!

Qwen又立功,全球最快开源模型诞生,超2000 tokens/秒!

全球最快的开源大模型来了——速度达到了每秒2000个tokens! 虽然只有320亿参数(32B),吞吐量却是超过典型GPU部署的10倍以上的那种。它就是由阿联酋的穆罕默德·本·扎耶德人工智能大学(MBZUAI)和初创公司G42 AI合作推出的K2 Think。

来自主题: AI资讯
7998 点击    2025-09-10 23:15
拜拜Claude!阿里最强万亿模型编程秒了Opus4,实测在此

拜拜Claude!阿里最强万亿模型编程秒了Opus4,实测在此

拜拜Claude!阿里最强万亿模型编程秒了Opus4,实测在此

总参数达到1万亿,阿里迄今为止最大的模型来了! 没错,就是前几日大家期待已久的Qwen3-Max-Preview (Instruct)。

来自主题: AI产品测评
7070 点击    2025-09-07 12:30
断供?会“刻意练习”的Qwen2.5-3B,竟然超越Claude3.5!斯坦福最新

断供?会“刻意练习”的Qwen2.5-3B,竟然超越Claude3.5!斯坦福最新

断供?会“刻意练习”的Qwen2.5-3B,竟然超越Claude3.5!斯坦福最新

来自斯坦福的研究者们最近发布的一篇论文(https://arxiv.org/abs/2509.01684)直指RL强化学习在机器学习工程(Machine Learning Engineering)领域的两个关键问题,并克服了它们,最终仅通过Qwen2.5-3B便在MLE任务上超越了仅依赖提示(prompting)的、规模更大的静态语言模型Claude3.5。

来自主题: AI资讯
6245 点击    2025-09-06 11:35
刚刚,阿里首个超万亿参数新王登基!Qwen3-Max屠榜全SOTA,碾压DeepSeek V3.1

刚刚,阿里首个超万亿参数新王登基!Qwen3-Max屠榜全SOTA,碾压DeepSeek V3.1

刚刚,阿里首个超万亿参数新王登基!Qwen3-Max屠榜全SOTA,碾压DeepSeek V3.1

阿里迄今为止,参数最大的模型诞生了!昨夜,Qwen3-Max-Preview(Instruct)官宣上线,超1万亿参数性能爆表。在全球主流权威基准测试中,Qwen3-Max-Preview狂揽非推理模型「C」位,直接碾压Claude-Opus 4(Non-Thinking)、Kimi-K2、DeepSeek-V3.1。

来自主题: AI资讯
9231 点击    2025-09-06 10:16
AI也邪修!Qwen3改Bug测试直接搜GitHub,太拟人了

AI也邪修!Qwen3改Bug测试直接搜GitHub,太拟人了

AI也邪修!Qwen3改Bug测试直接搜GitHub,太拟人了

大模型也会玩信息差了。 Qwen3在基准测试中居然学会了钻空子。

来自主题: AI资讯
6389 点击    2025-09-04 15:26
多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快

多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快

多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快

今天,我们正式开源 8B 参数的面壁小钢炮 MiniCPM-V 4.5 多模态旗舰模型,成为行业首个具备“高刷”视频理解能力的多模态模型,看得准、看得快,看得长!高刷视频理解、长视频理解、OCR、文档解析能力同级 SOTA,且性能超过 Qwen2.5-VL 72B,堪称最强端侧多模态模型。

来自主题: AI资讯
8611 点击    2025-08-26 23:30