AI原生的广域网技术来了,传统要被淘汰了?

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AI原生的广域网技术来了,传统要被淘汰了?
9026点击    2026-01-09 14:36

AI原生的广域网技术来了,传统要被淘汰了?


谭老师我,


每年会找几个看似冷门,


其实值得深挖的选题,


啥意义,没苦硬吃?


这是拉开认知差距的办法。


科技这行,赚小钱靠信息差,


抓大钱靠认知差,


这篇灵感来源于,


有几位搞AI底层技术的朋友常说,


“即便网络技术有用,


我也不想看那些东西,


吃不透成堆的协议”,


甚至,一位在上海搞国产AI芯片的朋友也说,


“我实在没有勇气,


翻看那些厚厚的协议……”


那行,这事,交给我吧,


谁还不想听别人说,作者牛呢。


出发前,


需要几位我认可的领域专家同行,


我认可,三个字重读,


专家得有“做过,且成功”的经历,


“网络赵括”这种,我礼貌谢绝。


AI原生的广域网技术来了,传统要被淘汰了?


他们是:


阿里云广域网架构与研发总监,以泰,


阿里云广域网资深架构师,Roy;


阿里云广域网资深研发,岳舟


阿里云网络系统软件总监,


SONiC TSC Vice Chair, Eddie;


还有一位,他们不让说名字,


不过他的名字写在,


《Segment Routing详解》这本书封面上了,


我发誓,这书我尽力看了,太难懂了。


我摸着良心向大家推荐,


这种地狱般的阅读感受,


不能只让我一个人承受。


AI原生的广域网技术来了,传统要被淘汰了?


AI原生的广域网技术来了,传统要被淘汰了?


前方高能预警了,


我就不客气了。


你问一个问题给千问APP,


问题先从你的手机,


走三大运营商公网,


再进入阿里的广域网,


AI算出答案后再原路返回,


回到你的手机APP里


这每一步的速度和稳定性,都靠广域网撑着。


这一来一回,看似瞬间完成,


背后却是一张庞大,精密的广域网络在支撑,


而且广域网正在被彻底重构。


这场重构的核心,正是SRv6协议,


SRv6协议是啥?


你想讲透广域网底层技术,它是C位。


那么问题来了:


SRv6是如何用于广域网的?


它解决了广域网的哪些问题?


数据流转类似马路上的车流,


效率高就是把广域网里的带宽资源尽量用满。


SRv6最核心的能力,


是解决了广域网里的流量工程,


也就是数据在广域网流转怎么才能高效。


广域网的核心资源就是带宽,


把带宽高效地用好,这件事有多棘手?


上一篇,我讲了一个近几个月的新闻,


美国大厂Meta为了AI,


建了一条海底光缆,比地球周长还长,


建这种设施,背后全是钱,


因此,广域网的带宽利用率,


必须打得很高,才对得起成本。


达到90%实属正常,


对比数据中心带宽利用率30%,


就算其中的智算网络,能猛一下拉起来,


很像心脏加速,


但也就是那几下子,不是一直高。


数据中心网没有广域网带宽成本高,


那就敞开铺带宽,不用精打细算。


AI原生的广域网技术来了,传统要被淘汰了?


广域网却急需能精细化管理流量的技术,


于是,谁能把带宽资源用细致,用细腻,


谁有竞争力。


SR强在哪里呢?


它就像是给要出发前的数据包,


配了一个“模块”


这个“模块”像高德导航中的路径规划和导航指令,


规划好每个段(标识)怎么走。


指引数据包按顺序前往各“段”。


“模块”叫SID信息。


后续,硬件能快速识别,


并按照这些信息转发数据。


分段,是一种很灵活的思路。


但它所解决的问题中内含的矛盾还是很突出


流量工程的核心目标是优化路径。


这种优化,越全局越好,


但是分段之后,以前的那一堆协议怎么办?


SRv6协议能搞定一切吗?


它是那颗银弹吗?


阿里的答案是肯定的。


阿里用SRv6,核心干了三件事,


这三件事直接决定了广域网的效率上限。


但我今天只讲最重要的:流量工程,


流量工程,简单来说,


像是网络世界的交通规划。


就是在网络中为数据选择最合适的路线。


流量工程,我问专家们要了个口诀:


一是网内走哪条路,


二是出网走哪个门。


AI原生的广域网技术来了,传统要被淘汰了?


AI原生的广域网技术来了,传统要被淘汰了?


既然讲SRv6,就不得不提,


它的前辈(MPLS),


是时候说说它的“坏话”了;


毕竟,它当红的“时代”,过去了。


过去,数据转发这项工作由MPLS承担。


MPLS是多协议标签交换技术,


不是传统意义上的“协议”,


而是一种数据转发技术。


虽然MPLS技术没有用IP地址转发,


但是历史的风向,在SR时代又转回来了,


SRv6又用回了IP地址来做转发。


不过,曾几何时,MPLS还是很风光,


MPLS使用了“标签”,


来指引数据流向的司机,


标签就像是行驶证,


指明数据应该走哪条路线。


这下,故事的两大主角都登场了。


AI原生的广域网技术来了,传统要被淘汰了?


我讲的故事,可以说,


是一场MPLS交棒给SRv6的技术变革。


为什么说是技术变革?


这么说吧,很多著名运营商的技术水平,


也就停留在MPLS时代,


谁落后,谁知道。


MPLS“统治”广域网技术多年,


甚至有一个MPLS的学术会议,


不过,现在也改名了,


相信你也听出来,科技圈的残酷之处了。


只要你落后,人人和你划清界限;


有没有真货是其次,


高新技术的排面得有,


MPLS咋就落后了呢?


2秒就懂广域网版本的答案是:


复杂,且不灵活;


谭老师我一向以知识含量高为道,


那展开讲讲:


用MPLS做流量工程(TE),


但有个致命缺陷:它无法灵活切分。


在网络里的“域”(Domain),


是一个重要的概念,


一个域里的路由器,同步容易。


比如,一个或者几个城市的数据中心群。


只要在一个域内,


所有设备必须实时同步路由信息,


俗称“认知一致”。


一旦某台路由器设备出错,


错误会像病毒一样传染整个域,


导致大面积故障,


就是,“爆炸半径太大”。


可惜,MPLS没法解决,


因为它是多标签的,


所有的路由器都须在同一个标签体系下操作,


切成小域,就得每个域一套标签,


复杂和管理难度一下增大。


上面这652个字,大概解释了,


MPLS和SR都是实现流量工程(TE)的方式,


且一新一旧;


但我没解释流量工程(TE)是啥。


其实,它是C位中的C位,


看不懂它,就看不懂“交棒”这个里程碑。


但是,我现在并不打算立即展开,


名词解释,你去问AI都能给你答案,


但我想理清一个技术脉络,


理解成为水到渠成的事情。


AI原生的广域网技术来了,传统要被淘汰了?


如果有一个东西(庞大的系统),很容易故障,


那你一定想让它尽量不要坏,


非要坏,就坏的范围小一点,


坏的频率低一点,


这个道理是一位网络技术里的大佬给我讲的,


大道至简。


别看道理简单,


用在人体生病也是同样道理。


天天搞事情(生大病),谁能受的了?


业务部门就差指着鼻子骂了,


CTO被稳定性连累,


降职降薪那是分分钟的事,


既然要坏的范围小一点,


域这个东西,


搞小一点,好切分,


要在这个方向上,找银弹。


MPLS显然不是这颗银弹。


这里可以打个比喻:


“阿里花名”与“国内手机号”。


在IPv4的时代,IP地址位置不够,


就像一个挤巴巴的旧信封,写多就满了,


老办法是,工程师们只好在信封外面,


再套一层信封,


这就产生多标签(MPLS)这一技术。


MPLS就像阿里的“花名”,


出了阿里的门,喊花名没人认得。


而IP地址更为通用,就像“电话”,


它是全球通用的身份。


AI原生的广域网技术来了,传统要被淘汰了?


说到底,MPLS是一这种“垫层”技术,


人们只好在原本的IP地址基础上,


再增加一个“标签”层,


这就是MPLS的由来。


本质上,是在原本不够住的地方搭建。


这种多标签系统,虽然解决了部分问题,


但也带来了管理上的复杂性。


比如,当数据包从一个网络跳到另一个网络时,


路由器需要依次解析多个层级的标签,


既查找“花名册”,再查找“电话本”。


这种两套系统,两个名册的运作,


让事情变得繁琐,容易出错。


运维起来简直是灾难。


阿里云怎么做的呢?


既然大群聊天容易崩,那就拆成小群。


阿里云他们的做法是把原本庞大的网络,


“切”成了8个极小的域(1%),


这里的域(ISIS Domain),


只保留几台核心设备。


在这个小圈子里,大家依然保持“精密同步”;


而出了这1%的小圈子,


剩下的广域网全部交给另一种协议(BGP)。


比如,在这个域里,有8个大路由器(心脏),


就算一个坏了,


还有另外7个,


你就说稳不稳吧。


每增加一个区域,


就要增加昂贵的硬件路由器。


这就是工业界的真实逻辑:


技术不是在实验室里追求极致,


而是在稳定、性能与成本,


“不可能三角”中寻找平衡。


阿里通过把域(ISIS)缩小到极致(约占1%),


把剩下的绝大部分交给更稳定,易扩展的BGP,


打个残忍的比方,


这种“把心脏挖出来单独维护”的设计,


用最少的钱,办了最稳的事。


不仅是技术的迭代,


更是管理哲学的进化。


说实话,把我观察到的,


阿里广域网的好处大说一通,


文章收尾,早点下班,


但,如果你不理解,SR的高明之处,


就理解不了阿里对SRv6技术理解的深度,


不过,我剧透:要在文末大大说一下,


阿里广域网的缺点。


AI原生的广域网技术来了,传统要被淘汰了?


阿里云资深研发Roy,


有句一针见血的表达,


SR是在数据面上玩的花样。


也就是说,SRv6是让数据包自己携带路径信息,


路由器仅根据这些信息来执行,


而不需要每次都重新计算路径。


所以,Roy说的那句,


几位专家,都深以为意;


因为它通过改变数据包的转发方式,


让路由器不再依赖传统的路由表查找,


这是对数据包转发过程的优化和创新,


流量工程能玩出一套新境界。


我观察,SRv6,牵一发动全身,


背后涉及到多个层面,


不是单点拔高,是全面挑战:


涉及软件,硬件,芯片,运营能力。


所以,它不仅是网络中的一种转发技术。


软件部分主要是路径计算、流量管理和策略


还需确保SRv6的协议能够被网络设备支持;


硬件部分需要根据SRv6协议进行相应的支持,


特别是在处理“高德模块”,


这个模块就是,数据包头的SID信息,


硬件必须能快速识别,


且按这些信息进行转发。


如果没有高效的硬件支持,


SRv6的路径转发就无法实现其优势。


而芯片作为硬件的核心,


决定了SRv6在网络设备中的执行效率。


芯片的处理能力,


直接影响数据包的转发速度和网络的整体性能。


运营能力需要协调以上各个方面,


或者,我说得再直接一点,


网络技术再牛,


整个系统最后都要乘以一个系数,


这个系数就是由运营水平和成本决定。


前面整个系统再牛,也要运营水平定乾坤。


明讲了,如果想把SRv6做出来,


厂商整体技术实力要上一个大台阶。


厂商网络技术不行,就做不出来,


谁能做出来,稳定大规模且低成本,谁就牛,


这叫,用结果说话。


先要说清Segment Routing到底是啥,


如果不熟悉网络底层逻辑,并不好理解;


SR,是一种源路由技术框架,


所谓源路由,就是在数据包头中,


嵌入一个堆栈结构,


里面可以携带多个段(Segment)标识,


每个段标识就像是一个路线指引,


让数据包按照预定的路径,


依次经过网络中的各个节点。


AI原生的广域网技术来了,传统要被淘汰了?


这个介绍很行话,


而我却想从Segment一词入手理解,


在我看来,


“段(Segment)”的提出很是巧思,


是SR技术发明人思科院士Clarence Filsfils,


一整思路的起点。


他有一次开车出门,


从布鲁塞尔去罗马,中途一个隧道封闭,


他就灵机一动绕道日内瓦,从那里去罗马,


这件事情启发了他,


把传输路径分段,


数据流按导航按顺序,在节点上“打卡”,


看来科技工作者要多出门,


出门有灵感。


AI原生的广域网技术来了,传统要被淘汰了?


AI原生的广域网技术来了,传统要被淘汰了?


只聊技术枯燥,来个八卦,


老规矩,八卦可能来自思科公司匿名专家爆料,


很多网络工程师第一次听说SR,


可能是“SR-MPLS”,


单看名字,都有MPLS,还是玩标签那套,


在我看来,这正是SR技术发明人,


Clarence Filsfils先生的智慧之处,


“变革”这件事,光靠技术硬扛不行,


还有商业和利益的考虑;


尤其是网络,光你一家玩新的不行,


网络互连的艺术,


你的数据包发出去,得有人收才行。


就是说,玩的时候,


得把多方利益一起考虑进来,


这种多方强博弈的玩法,


在网络技术里体现的十分明显。


都能观察到,网络里的标准,联盟等形式,


比别的技术栈多,


这个时候,不能拿技术硬砸,


博弈需要智慧。


有幸,我在清华大学六教的MBA课堂上,


听过宁向东教授的一门课《公司治理》,


他栩栩如生地讲述了改革的困境,大意是:


想改革,一上来就掀翻桌子,


不是一个好的方法,


会受到保守派的拼死抵抗,


代价很大,很可能就死在襁褓之中,


不如润物细无声,


先和保守派能坐在一起吃饭,


你和他们商量,能不能加一个凳子,


大家先一起吃。


你连能和人家坐在一张桌子上吃饭都做不到,


后面的改革,恐难实施。


在SR的这个故事里,


我似乎看到了当年教授思想的精髓。


以前在IPv4时代,


先用MPLS的分段路由,称为SR-MPLS。


用IPv6的分段路由的时候,


才有SRv6。


SR先搬了凳子,在MPLS席面上吃饭,


才全面革新了MPLS。


总有中间状态的技术,


时间窗口一过,它就退出历史舞台了,


网络研发工程师们把SR的思想又用了一遍,


在工程上,把逻辑照搬到IPv6上,


IPv6和SR技术双向奔赴,


这就有了SRv6。


AI原生的广域网技术来了,传统要被淘汰了?


AI原生的广域网技术来了,传统要被淘汰了?


为什么以前没人这么干?


因为SRv6这个协议,直到2020年才弄出来,


此时,距离SRv6成为RFC标准还有半年,


距离SRv6压缩编码成为RFC标准还有5年。


但阿里云已经开始搞了,


思科那帮参与推动这件事的人,


有好些,入职了阿里云。


SRv6(翻译过来就是SR基于IPv6)


而且IPv6的地址位宽高达128位,


我的乖乖,2的128次方,


信封大得惊人,光写地址太可惜了,


要好好利用,这就深入到这个协议的核心地带。


随着云计算客户五花八门地提需求,


是不是要在哪里体现出来,


好比,头等舱,商务仓,经济仓。


谭老师我一出国,


就深感航空公司的仓位等级,


是最体现穷富差距的地方,很是残酷;


也有朋友告诉我,


这是经济学里供求关系的极致体现;


如今这种关系也体现在了网络技术上,


为什么?因为飞机仓位资源非常金贵,


广域网的带宽资源也是,


于是,两者发展出类似的服务模式。


物尽其用,这一思想再次被召唤,


于是,这些包含了发送和接收信息,


所需的内容(报文),


只写地址,实属浪费,那怎么办?


用后面充足的空间去给一堆业务“标”属性,


属性,也就相当于航空公司的飞机舱位等级;


比如,该数据包是否需要优先处理,


是的,他们花了很多钱,


富人服务,穷人服务;


这样,一举两得,


而且再次利用了SRv6地址,


那一串数字(自带语义)。


AI原生的广域网技术来了,传统要被淘汰了?


既然走回到老路(IP地址)上了,


那就既能走内部通讯录(IGP协议),


也能走全球电话簿(BGP协议)。


相当于,不再像以前MPLS这么折腾,


跨域传递信息,简单直接,


这也是它比MPLS更适配广域网的关键原因。


这种表述,太行话了,


简单说,一句话,


广域网络和数据中心网络,


“跨界自如”了。


AI原生的广域网技术来了,传统要被淘汰了?


AI流量需要短时延,大带宽,


将来用流量工程(TE)都能给安排。


走老路,就安排不了。


但这是基于SRv6协议的流量工程。


而老式流量工程过于复杂,


不吐槽不行,


第一个槽点就是协议本身,


MPLS“水平有限”,前面讲了;


第二个槽点就是多个协议之间还要协调,


流量工程依赖两个协议(MPLS和IGP),


本质上,它们关系是互补的。


网络内部,IGP负责拓扑和路径计算,


这是路由决策的基础,


而MPLS则用这些决策,


通过标签控制流量的精确转发和路径优化。


换句话说,IGP协议计算出网络中的每条路由,


哪些路径最短、延迟最低,


而MPLS则利用这些计算结果,


来选择合适的路径调度流量。


简单来说,IGP定义了网络的结构,


MPLS基于这个结构带着引导数据跑起来,


老方法是,MPLS和IGP通常共享一个较大的域。


为什么要这么做呢?


因为流量工程是全局性的,


它是一种端到端的路径选择。


如果网络的域(IGP)划分过小,


就无法获得全局范围内的最优路径计算。


这样,流量工程的优化效果就大打折扣,


因为你只能在一个小范围内选择,


而无法考虑整个网络的资源和拓扑结构。


SRv6技术把MPLS干掉了,


也就是说标签没了,


完全依赖路由协议了,


把这个域(ISIS是IGP的一种),


降低成原来的1%,


一下降低两个数量级。


且用路由协议搞定全部(用标准的BGP就行)。


曾经是MPLS进不去的地方:


数据中心、主机、虚机、容器,跨域毫无压力,


IPv6说:我通行无阻,


SRv6说:俺也一样。


AI原生的广域网技术来了,传统要被淘汰了?


如果SRv6协议的好处,这就讲完了,


我认为,那还体现不出它厉害,


再讲一个SRv6的玩法:


隧道接入(Tunnel Access);


这是MPLS做不了的,无法实现的。


这个玩法,也在别的网络领域有用到,


但广域网里,是阿里首创。


前面,讲了不少协议了,


都还没有讲完,


广域网协议的复杂性可见一斑,


再来个DSCP协议,


(更准确说是IP协议的一个字段)


它是将数据分类到不同隧道,


可惜。DSCP只有64个可能的值


(2的6次方=64),


以前,DSCP协议用于服务分级(Qos),


一个值赋予两种含义,


一个是选路,一个分级;


耦合在一起复杂了,会出问题,


这时候,DSCP已不是最好的选择了。


AI原生的广域网技术来了,传统要被淘汰了?


这个变化的核心逻辑是,


通过采用IPv6地址来选择隧道(tunnel),


而不是像以前那样依赖DSCP来分类流量。


使用IPv6地址的好处在于,


首先,IPv6提供了更广泛的地址空间(128位),


这意味着,能进行精细的流量分类和管理,


而不像DSCP那样,只有64个可能的值。


更重要的是,IPv6的地址,


不再和QoS(服务质量)绑定,


这让两者的关系解耦。


这样,流量分类和服务质量的管理变得灵活。


简而言之,使用IPv6地址,


来替代DSCP进行流量分类,


其优势在于:它不仅提供了更大的地址空间,


更加灵活的流量分类,


一举解决了数据中心和广域网之间的隔离问题,


使得流量分类和服务质量管理统一起来。


以前TE的域,与数据中心网络域是隔离的,


这样导致应用这一侧,


想要快速享用广域网分级服务的时候,不灵敏,


应用分级,需要走复杂的流程,


以前要几周,


才能分出一个服务级别给尊贵的客户,


现在,万事俱备,拉起就用,又快又爽。


AI原生的广域网技术来了,传统要被淘汰了?


AI原生的广域网技术来了,传统要被淘汰了?


如果说,阿里云的解决方案是SRV6单栈。


那就需要芯片支持,


思科公司Silicon One可以理解为:


一套“同一底座,不同型号”,


网络芯片家族:


从数据中心交换,到运营商路由,


用同一套核心能力按需扩展。


它的关键价值是“可编程”——


像给芯片装App一样,


把新需求做进转发里,


而不必等待下一代硬件。


这对 SRv6 特别重要,


SRv6让网络用IPv6来“带路”,


把路径与业务意图写进包头。


真实落地时经常会遇到:


需要新的封装方式,


需要更精细的业务分流,


需要更强的可观测性,


(例如把关键状态随流上报)、


还要兼顾高性能与低时延。


Silicon One 的可编程能力,


让 SRv6 的“想法”,


更快变成可运行的网络能力,


在不改设备形态的前提下,


升级转发逻辑与统计能力,


支撑SRv6在云数据中心互联,


尤其是广域网,AI等场景。


AI原生的广域网技术来了,传统要被淘汰了?


以上,是一大堆好处。


但是,世界上没有免费的午餐,


付出的代价是啥?用SRv6技术做隧道技术,


会面对什么?


在阿里云eCore中,


他们用SRv6和VPN路由表结合,


来划分不同等级,


一个VPN代表一个用户的一个等级。


特定用户进入特定VPN,


那就享受了特定等级的服务。


但是,这种做法有个弊端,


等级过多就不好搞了,


结果真的就等级过多了,


因为在网络中若要提供N个TE等级,


那就要为每个用户创建N个VPN,


每个VPN中的路由表是重复的,


即原来一个VPN中有M条路由,


那N个VPN就需要维护N乘以M条路由。


你就说多不多吧?


AI原生的广域网技术来了,传统要被淘汰了?


尤其,当一个用户的路由数量很大,


也就是M很大,


那就很容易突破路由器容量上限。


俗称,路由表数量爆炸,


这时候,阿里又拿出一个新思路,


SID-marking;


在机场中,不同的航班,


如直航、中转、红眼航班,


可共享受同一个航站楼,


避免了为给每个航班类型,


都单独建一个航站楼的浪费。


使用SID marking技术,


给每个乘客的票上会标明,


他们是乘坐哪种航班(即等级),


这样,虽然都在同一个航站楼,


机场工作人员可据票上的信息,


将乘客引导到相应的登机口(路径),


确保乘客顺利登上正确的航班。


当然,做法是减少路由表,


所以,对路由器芯片提出挑战。


思科的芯片是根据P4可编程芯片,


就可以灵活的实现这个功能。


软硬件的一场好配合。


最后的最后,


不啃点技术难题,不足以谈人生。


SRv6技术上演了一场教科书级的“减法”艺术。


表面上,“新老技术交接棒”,


本质上,阿里广域网在稳定、


性能、成本、和运维之间,


让技术实力上到了另个台阶,


再找到了一个新的平衡点。


哈哈, 这么牛掰的技术,


我好奇为什么不发Sigcomm 论文呢?  


但是阿里的网络小哥哥说,


他们发论文要等技术上线1-2年, 


对于广域网这种长周期的底层技术,


是需要更长时间,


通过大规模实践来检验的。


AI原生的广域网技术来了,传统要被淘汰了?


One More Thing


有个趣事,


SR技术发明人是思科院士Clarence Filsfils,


"Fils"在法语里,是一个非常基础且常用的词,


它的意思是“儿子”,


那么问题来了,


把Filsfils换成中国的姓,


你觉得,应该是哪个呢?


AI原生的广域网技术来了,传统要被淘汰了?


AI原生的广域网技术来了,传统要被淘汰了?


文章来自于微信公众号 “亲爱的数据”,作者 “亲爱的数据”

AITNT-国内领先的一站式人工智能新闻资讯网站