AI大模型训练与智算中心网络架构及可扩展性设计

由 linghuchong@admin

30 3 月, 2025

主机资讯

在AI大模型训练场景中，集群网络架构的优劣直接影响到智算网络性能、扩展性和稳定性，CLOS网络架构是一种广泛应用于云数据中心、智算中心、高性能计算环境的网络架构，本文的重点是介绍如何通过CLOS架构搭建不同规模的参数面网络（训练网络），又是一篇满满的干货，闲言少叙，以图说话。

1,CLOS基础架构及扩展

CLOS架构最简洁的部署方式是Spine-Leaf的两层网络架构。

在经典CLOS架构下：

所有交换机端口数量相同（n个）（注：实际组网时，也可以不同，这里以相同的情况进行考虑）
1：1收敛比
两层CLOS下：最大接入的服务器网口数量为n*n/2，以n=64，接入的服务器网口数量为2048

由上面Spine-Leaf的两层组网架构可以看出：

能接入的服务器数量由Leaf交换机的下行端口数以及Leaf交换机的数量决定
Spine交换机的数量由Leaf交换机的上行端口数量决定
Leaf交换机的数量由Spine交换机的接口数量决定

然而，两层CLOS架构下，能够接入的服务器网口数量受到限制，当网络规模较大时，就需要对两层CLOS架构进行扩展，对应的扩展模式主要有两种，分别是基于虚拟机框的扩展方式和基于Pod的扩展方式。

2,基于Pod的扩展方案

基于Pod的扩展方案，如果我们变换一种画法，可以按照下图来画，这样SS1与SS3一组，SS2与SS4一组。

整个集群的规模由每个Pod规模和Pod数量来决定。

每个Pod的规模可以依靠Leaf-Spine Group的架构来进行扩展（Leaf、Spine的数量为n，可以组成不同规模的n x n的Pod架构），在规模较小时可以采用4 x 4架构，规模较大时，Leaf-Spine Group的架构可以相应的调整为8 x 8架构、16 x 16架构，甚至32 x 32架构或64 x 64架构。

举个例子，如果采用64端口的交换机，则单个Pod可以扩展至64 x 64架构，则网络可以扩展至下面的网络规模。

如果变换一下上图的画法，就形成下面的立方体架构。

在收敛比1:1情况下：

每个Pod内Spine和Leaf数量相等
SSG分组的数量，与Pod内Spine数量相等
SSG分组内的Super-Spine的最大数量与Pod内Spine上行端口数量一致

3,基于虚拟机框的扩展方式

基于虚拟机框的扩展方式，如果我们变换一种画法，也会更容易理解。

举个例子，如果采用64端口的交换机，则集群可以扩展至下面的网络规模。

如果也变换成立方体架构，如下图所示：

4,轨道优化情况下的组网变化

轨道交换情况下，CLOS架构扩展的一些变化，用户会根据自己的实际需求进行相应的调整，变化的形式有很多，这里举2个例子。

仍以64口交换机为例，在轨道交换情况下，基于Pod的扩展变化成如下的模式：

上图轨道交换情况下的组网图，如果变换一下画法，把同一个Pod内同轨的Spine、Leaf画到一起，就和标准的基于Pod的扩展完全一样了。

下面是一个以英伟达SU（即可扩展单元，每个SU包含一定数量的节点–服务器，这里以08Host H100服务器为例，一个SU包含32个08Host H100服务器，256个GPU）为基础基本单元进行组网的例子，这是基于虚拟机框方式扩展的一个例子。

5,基于虚拟机框扩展和基于Pod扩展的区别

我们把两组扩展图放在一起来看，就会发现，如果把基于虚拟机框扩展的中间层的交换机一一对应的放到每一个Pod中，那与基于Pod的扩展就基本没有什么区别了，虽然设计理念不同，但是殊途同归。

在应用场景方面，基于虚拟机框式的扩展侧重运行单一应用的场景，基于Pod的扩展模式侧重于区分用户实例的场景。当大规模网络完整建立起来时，两种扩展方式使用的交换机的总体规模基本一致，投入成本相当，如果逐步推进建设，基于Pod的扩展模式初期的建设成本相对低一些。

声明|本公众号相关文章仅供交流学习，主要为本人学习笔记和总结，部分内容节选在其它文章或由其它文章归纳所得，版权归原作者或原出处所有，本公众号致力于保护原作者版权，若来源标注错误或侵犯到您的权益，烦请及时联系进行处理。

发表回复取消回复