国内首次!8.9毫秒推理速度破纪录,1元打穿百万token

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
国内首次!8.9毫秒推理速度破纪录,1元打穿百万token
6925点击    2025-09-28 23:04

Agentic AI时代,已经到来!


英伟达GTC大会上,老黄公开表示,当AI具备了感知和推理能力时,智能体AI就诞生了。


「它如同数字世界的「机器人」,本质是理解-思考-行动」。


国内首次!8.9毫秒推理速度破纪录,1元打穿百万token


当前,AI智能体革命已至临界点。国内外科技巨头纷纷加速布局,全力争夺这一赛道主导权。


据Gartner预测,到2028年,AI智能体将参与人类约15%的日常工作决策。


Georgian报告也显示,如今,91%的企业研究主管正计划在内部铺开Agentic AI的落地应用。


然而大规模部署之前,「交互速度」与「成本控制」仍是横亘在许多企业面前的两大关键挑战。


国内首次!8.9毫秒推理速度破纪录,1元打穿百万token


这里有简单的一个案例,就足以说明一些问题。


国外一支开发团队基于Azure的OpenAI服务,构建了一个智能体。然而,随着时间的推移,响应变得越来越慢,一次简单查询耗费10秒以上。


当他们用OpenAI API测试完全相同的提示词后发现:OpenAI响应时间为1-2秒,Azure则需要5-10秒。


同一款模型,同一个提示词,却有五倍差异。


要知道,智能体的交互速度,直接决定了用户体验的质量。如今,人们对AI响应速度的期待,已从「秒级」进化到「毫秒级」。


不仅如此,成本又直接决定了智能体产业化的可行性。多智能体的协作,对低延迟和token消耗又提出了更高的要求。


国内首次!8.9毫秒推理速度破纪录,1元打穿百万token


分毫必争的响应速度,决定了人们是否愿意买单;而真金白银的投入,则决定了企业能否持续推动AI智能体落地。


那么,如何才能既要又要呢?


在2025人工智能计算大会上,浪潮信息重磅发布了两大破局创新系统:元脑SD200超节点AI服务器,以及元脑HC1000超扩展AI服务器。


  • 在元脑SD200上,DeepSeek R1大模型的Token生成速度飙升至8.9毫秒,创下国内LLM推理的最快纪录,首次将智能体实时交互带入「10毫秒」时代。


  • 在元脑HC1000上,LLM的推理成本被前所未有地压缩至「1元/百万Token」,彻底击穿规模化部署的成本天花板。


国内首次!8.9毫秒推理速度破纪录,1元打穿百万token


Scaling Law下一站:AI智能体爆发


2025年,大模型的Scaling并未放缓,而是进入了一个全新的阶段。


Scaling Law的焦点,早已从「预训练」转向了「推理」。


从o3、Gemini 2.5,到Grok 4、GPT-5,全球顶尖AI不断迭代,每一次发布都刷新了以往SOTA。


这一演进的节奏仍在加速。爆料称,谷歌Gemini 3.0、OpenAI Sora 2都将于十月初面世。


国内首次!8.9毫秒推理速度破纪录,1元打穿百万token


反观国内,DeepSeek R1/V3.1-Terminus、Qwen家族等开源模型,月更、周更已成为常态。


在能力边界上,LLM正从纯文本,走向了融合视觉、听觉的多模态模型,并逐步演变为一个底层「操作系统」。


可以预见,AI能力将依旧会指数级增长——


LLM性能越来越强,所处理的任务长度和复杂度,也在不断提升。


国内首次!8.9毫秒推理速度破纪录,1元打穿百万token


我们看到,Scaling Law推动的模型参数量,从百亿千亿向万亿、甚至百万亿迈进。


与此同时,在后训练阶段增加算力投入,可显著提升LLM推理能力。


为何这一转变如此重要?因为「推理」是构建Agentic AI的基础。


众所周知,2025年,是「智能体元年」。作为LLM的核心应用形态,智能体落地进入了爆发期。


在这一赛道上,谷歌、OpenAI、Anthropic等巨头竞相布局。


比如,OpenAI的「编码智能体」GPT-5-Codex深受开发者欢迎;另外,还有正在内测的「GPT-Alpha」,具备高级推理、全模态,可以调用工具。

国内首次!8.9毫秒推理速度破纪录,1元打穿百万token


然而,AI智能体的产业化落地并非易事。


能力、速度和成本,成为了当前AI智能体产业化决胜的「铁三角」。


AI不再局限于技术演示、实验,而要深入场景,成为创造可衡量价值的核心生产力。


这意味着,商业成功的核心已从单纯追求模型能力,转向对能力、速度、成本三者的综合平衡。


交互速度:决定智能体的商业价值


在智能体时代,速度不再是锦上添花,而是生存底线。token的吞吐速度,已成为AI应用构建的「隐形计时器」。


在人机交互时代,我们对AI延迟感知不强,只要响应速度跟上人类阅读思维即可。


一般来说,只要满足20 token/s输出速率,就能实现流畅的阅读体验。


而现在,AI的游戏规则彻底改变。


交互主体不再是「人-机」对话,而是「智能体-智能体」的高频博弈。


延迟哪怕是几毫秒,也可能导致决策失效。而且,在规模化商业部署中,这种差异会被无限放大,形成「以快杀慢」的绝对碾压。


智能体间交互,多为「小数据包」高频通信。这好比修了16条车道高速公路,AI只跑两公里,巨大的带宽对于小包传输如同虚设。


而传统通信协议「上下高速」的过程,反而成了主要耗时。


延迟是会层层累加的。当前智能体仅是初露锋芒,未来互联网将由它们主导协作。


每一个交互环节的微小延迟,都会在复杂的协同网络中呈指数级放大,最终导致整个应用响应慢到无法接受。


如果延迟无法降低,那就失去了商业化的可能性。


举个栗子,在欺诈防控场景中,对智能体响应速率提出了极限要求——约10毫秒。


当前,DeepSeek响应速度基本在10-20毫秒左右,其他的普遍高于30毫秒。这远不足以支持AI的高频交互。


国内首次!8.9毫秒推理速度破纪录,1元打穿百万token


token成本:规模化的生死线


此外,token成本,是智能体能否实现规模化扩张,并且盈利的关键。


即便模型能力卓越,若token成本无法控制在合理范围内,高频、并发的实际应用,将难以持续。


一方面,LLM存在着「token膨胀」效应:推理前思考过程已产生上千万token。一个复杂任务,直接让token成本指数级暴涨。


那么,是什么原因导致token思考数暴增?


首先必须承认的是,模型本身算法能力差异是影响因素之一。


不同LLM在设计和训练过程中,算法架构和优化策略各有优劣,而优化程度更高的LLM可通过更高效推理路径,在较少token消耗下完成相同的任务。


其次,底层计算架构选择路径等,也会进而影响token成本。


因为LLM运行有依赖于底层的计算架构,包括硬件加速器、分布式计算框架等等。


若是计算架构无法高效支撑LLM推理需求,比如在分布式系统中存在通信瓶颈或计算资源分配不均,LLM可能需要生成更多token「绕路」完成任务。


国内首次!8.9毫秒推理速度破纪录,1元打穿百万token


当前,在做AI Coding的程序员,每月消耗token数比一年前平均增长约50倍,达到1000万-5亿token。


企业每部署一个智能体,平均token成本大概1000-5000美元。未来五年,token消耗预计增长100万倍。


可见,不论是速度,还是成本,都成为AI智能体商业化落地的最大挑战。


面对这个难题,我们该如何解?


两大核心方案,拿下速度成本难题


浪潮信息,同一时间给出了两大解决方案——


元脑SD200超节点AI服务器  


元脑HC1000超扩展AI服务器


元脑SD200


若要实现更低延迟token生成能力,就需要在底层基础设施,比如架构、互联协议、软件框架等关键点上,实现协同创新。


浪潮信息新的突破,在于元脑SD200超节点AI服务器。


如前所述,DeepSeek R1在元脑SD200上token生成速度实现了8.9毫秒。


目前,最接近的竞争对手,最好的数据是15毫秒。这是国内首次将智能体实时交互,带入到10毫秒时代。


为何元脑SD200能够取得如此大的速度突破?


这背后离不开团队,融合了智能体应用和超节点开发的技术成果。


· 首创多主机3D Mesh系统架构


它可以实现单机64路本土AI芯片纵向扩展(Scale Up),提供4TB显存和6TB内存,构建超大KV Cache分级存储空间。


而且,单节点即可跑4万亿参数LLM,或同时部署多个协作的智能体。


此外,在硬件设计上还支持了「开放加速模组」(OAM),兼容多款本土AI芯片。


· 跨主机域全局统一物理地址空间


团队还通过远端GPU虚拟映射技术,突破了跨主机域统一编址的难题,让显存统一地址空间扩展8倍。


它还支持拓扑动态伸缩,可按需扩展128、256、512、1024卡的规模。


通过Smart Fabric Manager,元脑SD200实现了单节点64卡全局最优路由,保障了芯片间通信路径最短,进一步缩短了通信延迟。


国内首次!8.9毫秒推理速度破纪录,1元打穿百万token


最重要的是,互连协议的设计,是元脑SD200实现极低延迟的关键。


首先,团队采用了基建的协议栈,只有物理层、数据链路层、事务层三层协议,原生支持Load/Store等「内存语义」,GPU可直接访问远端节点的显存或主存。


并且,基础通信延迟达到了「百纳秒级」。


其次,浪潮信息Open Fabric原生支持由硬件逻辑实现的链路层重传,延迟低至微秒级。


不依赖OS、软件栈,它就能匹配更低延迟、更高吞吐的AI推理场景。


元脑SD200还采用了,分布式、预防式流控机制,无需丢包或ECN来感知拥塞。


得益于以上高效、可靠的协议设计,元脑SD200实现了业界最低0.69微秒通信延迟。


国内首次!8.9毫秒推理速度破纪录,1元打穿百万token


当然了,超节点的大规模商业化应用,还必须依靠整机的高可靠的设计。


为此,浪潮信息从系统硬件层、基础软件层、业务软件层,构建了多层次、可靠的保障机制。


  • 系统硬件层:全铜缆电互连,短距离紧耦合传输,每十亿小时故障率低于「光模块互联」方案100倍


  • 基础软件层:创新GPU故障信息转储、跨域故障关联定位等技术,实现全方位可观测、全栈运维自动化


  • 业务软件层:基于Profiling性能数据启动故障预隔离和任务自动迁移,保证业务故障预测与自愈,实现推理响应不中断


国内首次!8.9毫秒推理速度破纪录,1元打穿百万token


在元脑SD200上,团队还非常强悍地实现了推理性能超线性扩展。这意味着,性能的提升幅度超过了资源投入的增加幅度。


以DeepSeek R1-671B为例,从16卡扩展到64卡,实现了16.3倍超线性的扩展率!


具体来看,元脑SD200将这件事做到了极致的完美:


通过PD分离策略、动态负载均衡等技术,充分发挥出了超节点的架构优势,让系统内部的处理流程变得极其高效,资源竞争和拥堵被降到最低。


最终,将通信耗时控制在了10%以内。


可以设想,在实际高并发场景下,当请求量急剧攀升时,系统能够高效地将负载均匀分布至各个计算单元,避免了个别节点的「拥堵」拖累整个系统的响应时间。


这意味着,无论是第1个请求,还是第100万个请求,都能获得同样稳定且低水平的延迟。


既能「跑得快」又能「跑得多」,保证绝对极致的低时延,这就是实现规模化的生命线!


国内首次!8.9毫秒推理速度破纪录,1元打穿百万token


基于软件生态FlagOS,元脑SD200还能继续兼容更大的生态,主流代码即可直接编译运行。


当前,元脑SD200已实现对Pytorch算子的全覆盖,AI4S的典型应用可以一键迁移。


如下所示,64个AlphaFold 3蛋白质结构预测,即可在一台元脑SD200超节点AI服务器同时运行。


国内首次!8.9毫秒推理速度破纪录,1元打穿百万token


速度挑战解决之后,token成本又该怎么打下来?


元脑HC1000


为此,浪潮信息给出的答案是——元脑HC1000超扩展AI服务器。


它基于全对称DirectCom极速架构打造,能够聚合海量的本土AI芯片,支持极大的推理吞吐。


对于一个企业来说,在起步探索、POC阶段,平台通用性更加重要,可以快速验证想法,抢占市场先机。


这对其创新、迭代的速度,至关重要。


但当它进入大规模部署阶段,即应用被市场验证,token调用数呈指数级增长是时,核心目标又转变为——高效、低成本运营。


而元脑HC1000,就能把推理成本打到最低1元/百万token。


· 全对称DirectCom极速架构


DirectCom极速架构,每计算模组配置16颗AIPU,采用了直达通信的设计,解决了传统的服务器架构下,协议转换和带宽增强问题,实现了超低延迟。


计算通信1:1均衡配比,实现了全局的无阻塞的通信。


传统意义上,计算与通信是互斥关系,计算时不会传输,计算完成后再传。


当前,有很多将计算和通信结合的策略,主要是把原来在传过程,针对GPU等待时间做优化。


除此之外,还包含了许多细粒度的任务,比如不同模型架构,不同并发情况,通信数据块大小和通信策略都要优化,才能提升效率。


HC1000还采用全对称的系统拓扑设计,可支持灵活PD分离、AF分离,按需配置算力,最大化资源利用率。


它还支持多元算力,让不同的芯片协同工作。


· 超大规模无损扩展


同时,HC1000支持超大规模无损扩展,实现从1024卡到52万卡不同规模的系统构建。


计算侧支持DirectCom和智能保序机制,网络侧支持包喷洒动态路由,实现了深度算网协同,相较传统RoCE方法提升1.75倍。


它还支持自适应路由和智能拥塞控制算法,将KV Cache传输对Prefill、Decode计算实例影响降低5-10倍。


国内首次!8.9毫秒推理速度破纪录,1元打穿百万token


总结来看,元脑HC1000是通过「全面优化降本」和「软硬协同增效」,实现了高效token生产力。


它不仅创新了16卡计算模组,单卡成本暴降60%+,每卡分摊系统均摊成本降低50%。


而且,它采用了大规模工业标准设计,降低了系统复杂度的同时,还提高了系统可靠性,无故障运行时间大幅延长。


系统采用的DirectCom架构保障了计算和通信的均衡,让算网协同、全域无损技术,实现了推理性能1.75倍飙升。


通过对LLM的计算流程的细分和模型结构的解耦,实现了计算负载的灵活的按需配比。


单卡MFU计算效率,最高可以提升5.7倍。


元脑SD200+元脑HC1000,成为浪潮信息两大「杀手锏」,分别攻克了AI智能体应用速度和成本难题。


那么,下一步又该走向何方?


「专用计算架构」是未来


近期,OpenAI在算力布局上,动作频频:


先是和甲骨文签下3000亿美元大单,随后又获得英伟达100亿美元的投资。


紧接着,他们又官宣了「星际之门」五大超算全新选址计划。


国内首次!8.9毫秒推理速度破纪录,1元打穿百万token


这一系列举措,无不指向一个核心事实——对于LLM训练和部署而言,算力需求始终是一个「无底洞」。


当前,AI算力的可持续发展正面临三大关键挑战:


  • 工程极限:系统规模的扩展已逼近工程能力的上限。
  • 能源压力:算力的大幅增长给电力基础设施带来了巨大负担。
  • 效能失衡:算力投入和产出失衡,商业兑现进程缓慢。


目前,市面上的「AI芯片」仍以通用芯片为主。


GPU,是增加了CUDA核心和矩阵运算Tensor核心的传统图形计算芯片;ASIC,则是优化了矩阵计算和张量处理的通用矩阵计算芯片。


但正如前文所述,这些基于通用计算架构的方案,正逐渐在能效比和成本效益上触及瓶颈。


仅是单纯依靠堆叠更多计算单元,或是提升制程工艺的传统路径,难以沿着scaling Law在算力规模、能耗、成本之间取得平衡。


其原因在于,通用架构虽然适用性强、易于产业化推广,但效率低下。


相比而言,应用面较窄的专用架构,则有着更高的效率。


对此,浪潮信息AI首席战略官刘军认为,未来的关键便是在于「发展AI专用计算架构」:


我们必须推动发展路径的转变,要从一味地追求规模扩展,转向注重提升计算效率。  


并以此为基础,重新构思和设计AI计算系统,大力发展真正面向AI应用的「专用计算架构」。


具体而言,就是从硬件层面来优化算子与算法,定制出大模型专用芯片,进而实现软硬件层面的深度协同优化,即「算法硬件化」。


只有这样才能让性能的Scaling,追上token的高速增长。


这不仅是突破算力瓶颈的必经之路,更是推动AI产业迈向下一阶段的基石。


面对大模型时代,浪潮信息的前瞻性思考为业界指明了一条方向:通过创新计算架构,让AI更好地走向落地。



文章来自于微信公众号 “新智元”,作者 “新智元”

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0