
在AI大模型训练场景中,集群网络架构的优劣直接影响到智算网络性能、扩展性和稳定性,CLOS网络架构是一种广泛应用于云数据中心、智算中心、高性能计算环境的网络架构,本文的重点是介绍如何通过CLOS架构搭建不同规模的参数面网络(训练网络),又是一篇满满的干货,闲言少叙,以图说话。
1,CLOS基础架构及扩展
CLOS架构最简洁的部署方式是Spine-Leaf的两层网络架构。
在经典CLOS架构下:
- 所有交换机端口数量相同(n个)(注:实际组网时,也可以不同,这里以相同的情况进行考虑)
- 1:1收敛比
- 两层CLOS下:最大接入的服务器网口数量为n*n/2,以n=64,接入的服务器网口数量为2048
由上面Spine-Leaf的两层组网架构可以看出:
- 能接入的服务器数量由Leaf交换机的下行端口数以及Leaf交换机的数量决定
- Spine交换机的数量由Leaf交换机的上行端口数量决定
- Leaf交换机的数量由Spine交换机的接口数量决定
然而,两层CLOS架构下,能够接入的服务器网口数量受到限制,当网络规模较大时,就需要对两层CLOS架构进行扩展,对应的扩展模式主要有两种,分别是基于虚拟机框的扩展方式和基于Pod的扩展方式。
2,基于Pod的扩展方案
基于Pod的扩展方案,如果我们变换一种画法,可以按照下图来画,这样SS1与SS3一组,SS2与SS4一组。
整个集群的规模由每个Pod规模和Pod数量来决定。
每个Pod的规模可以依靠Leaf-Spine Group的架构来进行扩展(Leaf、Spine的数量为n,可以组成不同规模的n x n的Pod架构),在规模较小时可以采用4 x 4架构,规模较大时,Leaf-Spine Group的架构可以相应的调整为8 x 8架构、16 x 16架构,甚至32 x 32架构或64 x 64架构。
举个例子,如果采用64端口的交换机,则单个Pod可以扩展至64 x 64架构,则网络可以扩展至下面的网络规模。
如果变换一下上图的画法,就形成下面的立方体架构。
在收敛比1:1情况下:
- 每个Pod内Spine和Leaf数量相等
- SSG分组的数量,与Pod内Spine数量相等
- SSG分组内的Super-Spine的最大数量与Pod内Spine上行端口数量一致
3,基于虚拟机框的扩展方式
基于虚拟机框的扩展方式,如果我们变换一种画法,也会更容易理解。
举个例子,如果采用64端口的交换机,则集群可以扩展至下面的网络规模。
如果也变换成立方体架构,如下图所示:
4,轨道优化情况下的组网变化
轨道交换情况下,CLOS架构扩展的一些变化,用户会根据自己的实际需求进行相应的调整,变化的形式有很多,这里举2个例子。
仍以64口交换机为例,在轨道交换情况下,基于Pod的扩展变化成如下的模式:
上图轨道交换情况下的组网图,如果变换一下画法,把同一个Pod内同轨的Spine、Leaf画到一起,就和标准的基于Pod的扩展完全一样了。
下面是一个以英伟达SU(即可扩展单元,每个SU包含一定数量的节点–服务器,这里以08Host H100服务器为例,一个SU包含32个08Host H100服务器,256个GPU)为基础基本单元进行组网的例子,这是基于虚拟机框方式扩展的一个例子。
5,基于虚拟机框扩展和基于Pod扩展的区别
我们把两组扩展图放在一起来看,就会发现,如果把基于虚拟机框扩展的中间层的交换机一一对应的放到每一个Pod中,那与基于Pod的扩展就基本没有什么区别了,虽然设计理念不同,但是殊途同归。
在应用场景方面,基于虚拟机框式的扩展侧重运行单一应用的场景,基于Pod的扩展模式侧重于区分用户实例的场景。当大规模网络完整建立起来时,两种扩展方式使用的交换机的总体规模基本一致,投入成本相当,如果逐步推进建设,基于Pod的扩展模式初期的建设成本相对低一些。
声明|本公众号相关文章仅供交流学习,主要为本人学习笔记和总结,部分内容节选在其它文章或由其它文章归纳所得,版权归原作者或原出处所有,本公众号致力于保护原作者版权,若来源标注错误或侵犯到您的权益,烦请及时联系进行处理。