马斯克大赞阿里 AI,9B 参数硬刚 120B,海外网友:这叫小模型?

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
马斯克大赞阿里 AI,9B 参数硬刚 120B,海外网友:这叫小模型?
8534点击    2026-03-03 14:35

马斯克又双叒叕下场点赞中国 AI 了。


昨天深夜,阿里通义千问团队在 X 平台正式发布了 Qwen3.5 小模型系列,覆盖 0.8B、2B、4B 和 9B 四个参数规格。甫一发布,便在海外科技圈引发强烈反响。


马斯克大赞阿里 AI,9B 参数硬刚 120B,海外网友:这叫小模型?


马斯克也在该推文下评论称:「Impressive intelligence density」(令人印象深刻的智能密度)。这股热度的背后,APPSO 也好奇,为什么这几款小模型能够激起如此大的波澜?


马斯克大赞阿里 AI,9B 参数硬刚 120B,海外网友:这叫小模型?


又小又猛,凭什么


Qwen 官方在 X 平台发帖宣布这批模型上线,言简意赅地将其定位为「更强的智能,更少的算力」。


官方强调,四款小模型共享同一套 Qwen3.5 基础架构,原生支持多模态,并经过架构层面的专项改良与大规模强化学习训练。


Qwen 团队表示,希望这批模型能更好地支撑学术研究、实验探索与真实工业场景的创新落地,同时也宣布同步发布对应的 Base 基础模型。


马斯克大赞阿里 AI,9B 参数硬刚 120B,海外网友:这叫小模型?


Qwen3.5 系列模型核心采用「门控增量网络与稀疏混合专家」相结合的混合注意力架构,注意力层以 3:1 的比例排列,即 3 个 Gated DeltaNet 层搭配 1 个 Gated Attention 层。


这一设计的关键在于,模型在前向传播时只激活对当前任务必要的网络部分,而非全量计算,从而在极低延迟与算力开销下实现高吞吐推理。


马斯克大赞阿里 AI,9B 参数硬刚 120B,海外网友:这叫小模型?


附上 HuggingFace 地址:


https://huggingface.co/Qwen/Qwen3.5-2B


多模态这块也有讲究。Qwen3.5 采用「早期融合」训练机制,文本、图像、视频在底层就一起处理,不是在文本模型上事后挂个视觉编码器。


这个差异直接决定了小参数模型在视觉问答、OCR 文档理解等任务上,能打出远超同量级传统轻量多模态模型的表现。


全系列同时支持长达 26 万 Token 的上下文窗口,并引入「思考」与「非思考」双模式,可在深度逻辑推理与快速响应之间灵活切换。


0.8B 与 2B 模型均为 24 层结构,隐藏维度分别为 1024 和 2048,专为物联网设备等极端边缘场景设计,也可直接在主流手机上原生运行。


马斯克大赞阿里 AI,9B 参数硬刚 120B,海外网友:这叫小模型?


尽管 0.8B 在语言基准 MMLU-Pro 上得分 29.7,表现平平,但受益于早期融合架构,其在视觉任务 MathVista 上达到 62.2,OCRBench 达到 74.5,展现出与参数量不相称的视觉理解能力。2B 模型的 OCRBench 进一步提升至 84.5,表现亮眼。


马斯克大赞阿里 AI,9B 参数硬刚 120B,海外网友:这叫小模型?


4B 模型为 32 层结构,隐藏维度 2560,能够流畅运行于消费级移动硬件。官方将其定性为「出乎意料强大的多模态轻量智能体底座」。


9B 则再进一步,同为 32 层结构,但隐藏维度提升至 4096,FFN 维度扩展至 12288,可以在 Mac 上流畅运行。


其 MMLU-Pro 得分达到 82.5,不仅超越了参数量为其三倍的上一代 Qwen3-30B,在视觉任务上更以两位数优势超过 GPT-5-Nano 与 Gemini 2.5 Flash Lite。


马斯克大赞阿里 AI,9B 参数硬刚 120B,海外网友:这叫小模型?


MMMU-Pro 得分高达 70.1,MathVision 达到 78.9,证明了其在复杂物理和数学图像解析上的实力。官方将 9B 的目标明确为「缩小与前沿大模型的能力差距」,从基准数据来看,这一目标已初步实现。


海外开发者对这批模型的实际表现给出了高度正面的评价。


有开发者直言,称其为「小模型」不过是低估了它,就好比把飓风叫做微风。


马斯克大赞阿里 AI,9B 参数硬刚 120B,海外网友:这叫小模型?


另有观点认为,真正值得关注的指标是每十亿参数所能释放的智能密度。如今只需 3 万美元的硬件,就能跑出一年前需要 20 万美元 GPU 配置才有的推理能力。


已有开发者演示了在 iPhone 17 Pro 上通过针对 Apple Silicon 优化的 MLX 框架本地运行 Qwen3.5-2B 6-bit 版本,模型可实时完成视觉理解与问答任务。


马斯克大赞阿里 AI,9B 参数硬刚 120B,海外网友:这叫小模型?


网友在本地 Vision Agents 应用中实时识别手写内容并即时回答问题,并感叹这在几个月前根本无法实现。


马斯克大赞阿里 AI,9B 参数硬刚 120B,海外网友:这叫小模型?


还有用户这样总结道,9B 模型性能与规模达 120B 的 ChatGPT 开源模型相当,体积却只有其十三分之一,且完全免费,可在任何笔记本电脑乃至手机上运行。


知名开源推理工具 Ollama 也迅速跟进,官宣支持 Qwen3.5 全系四个尺寸,并配套提供原生工具调用、思维链推理与多模态功能,只需一行命令即可拉取运行。


马斯克大赞阿里 AI,9B 参数硬刚 120B,海外网友:这叫小模型?


附上地址:https://ollama.com/library/qwen3.5


跑分是起点,AI+硬件才是终局


在谈及阿里为何坚持追求开源与发布全尺寸模型时,千问技术负责人林俊旸曾在清华 AGI-Next 峰会上转述其师弟的观点,给出了一个朴素的答案。


他表示,小模型起源于内部实验需求,是为了让资源有限的学生也能参与研究。他回忆道,7B 规模的模型已让很多硕士博士生无力承担实验成本,若将 1.8B 的模型开源出去,很多同学就有机会顺利毕业,「这是很好的初心」。


马斯克大赞阿里 AI,9B 参数硬刚 120B,海外网友:这叫小模型?


平心而论,Qwen 系列一路开源走下来,客观上确实让很多人用上了本来用不起的 AI 模型。而对于普通用户而言,想亲身体验这批最新的小模型其实也不复杂。


目前,你可以通过 PocketPal AI 这款手机应用,直接下载并在本地运行 Qwen3.5 系列模型,无需任何 API,模型推理全程在设备端完成。


如果不习惯英文界面,可以在设置 (Setting) 里找到语言 (Language) 选项,切换成中文。


马斯克大赞阿里 AI,9B 参数硬刚 120B,海外网友:这叫小模型?


(具体教程可参考 APPSO 此前的文章:《我在 iPhone 17 Pro Max 上跑 AI 模型,体验了一把十年前「越狱」的快乐》)


不过有一个细节,比选哪个模型更重要:选对量化版本。


BF16 是接近原始精度的半精度权重,回答稳定性最好,推理细节与对齐效果最接近原版,但 2B 的 BF16 权重文件就要 4.45GB,运行时还需额外占用内存用于 KV cache 和运行缓冲区,极易触发系统杀后台或直接加载失败。


因此手机端的选择逻辑应该是:可用内存长期能剩 6GB 以上,优先选 IQ4_NL;可用内存常在 3GB 至 5GB 之间,优先选 Q3_K_M;可用内存更低,才考虑 Q3_K_S 等等。


马斯克大赞阿里 AI,9B 参数硬刚 120B,海外网友:这叫小模型?


说到底,一个无法独立运行的模型,不过是一堆权重文件。真正有价值的,是与正确硬件深度绑定、以正确量化格式部署的小模型,那才能成为真正的产品。


智能手机时代本质上是「单向输入」的范式,而即将到来的 AI 硬件浪潮,是要以更碎片化、更有粘性的方式接管人类的记忆与生活。小模型,正是给这些硬件注入灵魂的关键。


阿里已将 Qwen 小模型嵌入 AI 眼镜等可穿戴硬件,实现毫秒级端侧视觉解析。在真实物理场景中,向眼镜询问前方障碍物时哪怕延迟三秒也会失去全部意义,而这恰恰是云端大模型无法克服的物理瓶颈。


马斯克大赞阿里 AI,9B 参数硬刚 120B,海外网友:这叫小模型?


简言之,遇到需要深度推理的复杂问题,再作为路由器把请求交给云端的大模型处理。端云协同架构,才是接下来几年计算平台的基本形态。


包括在 iPhone 的「视觉智能」中,当用户把摄像头对准餐厅或商品,端侧实时完成场景解析、文本提取,甚至直接唤起购买流程,全程在设备上完成。


马斯克大赞阿里 AI,9B 参数硬刚 120B,海外网友:这叫小模型?


此外有媒体报道称,苹果下一步还在开发带摄像头的 AirPods 和智能眼镜,这些设备会变成用户的「第二双眼睛和耳朵」。


工业方面,IoT 设备、工厂传感器、医疗监测终端,这些场景里数据隐私更敏感,本地推理同样是硬需求。而端侧小模型实时处理第一视角多模态数据,则是绕不过去的基础设施。


就像今天没有人会专门写一篇文章夸手机能打电话一样。AI 眼镜、AI 手表、AI 耳机等可穿戴设备,现在听起来还有点新鲜,但在未来,它们也会变得稀松平常。


而让这件事成为可能的,恰恰是一批又一批看似没什么存在感的小模型。它们很小,但如无意外,它们将无处不在。


附上 HuggingFace 地址:


https://huggingface.co/collections/Qwen/qwen35


文章来自于微信公众号 "APPSO",作者 "APPSO"

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
逆向大模型

【开源免费】kimi-free-api是一个提供长文本大模型逆向API的开渔免费技术。它支持高速流式输出、智能体对话、联网搜索、长文档解读、图像OCR、多轮对话,零配置部署,多路token支持,自动清理会话痕迹等原大模型支持的相关功能。

项目地址:https://github.com/LLM-Red-Team/kimi-free-api?tab=readme-ov-file