AI大規模モデル訓練とスマート・コンピューティング・センターのためのネットワーク・アーキテクチャとスケーラビリティ設計

によって linghuchong@管理者

2025年3月30日

ホスティング情報

AIの大規模モデル訓練シナリオでは、クラスターネットワークアーキテクチャーの利点と欠点が、スマートコンピューティングネットワークのパフォーマンス、スケーラビリティ、安定性に直接影響する。CLOSネットワーク・アーキテクチャCLOSは、クラウドデータセンター、スマートコンピューティングセンター、ハイパフォーマンス・コンピューティング環境で広く使用されているネットワーク・アーキテクチャである。この論文の焦点は、CLOSアーキテクチャを通じて、さまざまなサイズのパラメータ・プレーン・ネットワーク（トレーニング・ネットワーク）を構築する方法を紹介することである。

1,CLOS インフラとエクステンション

CLOSアーキテクチャの最もクリーンな展開は、スパインリーフ2層ネットワークアーキテクチャである。

古典的なCLOSアーキテクチャでは

すべてのスイッチは同じポート数（n）を持つ（注：実際のネットワークでは異なる場合もあるが、ここでは同じとみなす）。
1:1の収束比
2層CLOSの場合：アクセスするサーバーポートの最大数はn*n/2で、n=64の場合、アクセスするサーバーポートの数は2048となる。

上記のSpine-Leafの2層ネットワーキング・アーキテクチャを見ればわかる：

アクセスできるサーバーの数は、リーフ・スイッチのダウンリンク・ポートの数とリーフ・スイッチの台数によって決まります。
スパインスイッチの数は、リーフスイッチのアップリンクポート数によって決まります。
リーフスイッチの数は、スパインスイッチのインターフェイス数によって決まります。

しかし、2層CLOSアーキテクチャでアクセスできるサーバーのネットワークポート数は限られており、ネットワーク規模が大きい場合には、2層CLOSアーキテクチャを拡張する必要があり、それぞれ仮想マシンフレームの拡張とPodベースの拡張方式による2つの主要な拡張モードに対応している。

2、ポッドベースの改良普及プログラム

ポッド拡張スキームに基づき、描画方法を変更した場合、下図のようにSS1はSS3とグループ化され、SS2はSS4とグループ化される。

クラスタ全体のサイズは、各PodのサイズとPodの数によって決まります。

各ポッドのサイズは、リーフ・スパイン・グループ・アーキテクチャー（リーフとスパインの数をnとすると、n×nの異なるサイズのポッド・アーキテクチャーを形成できる）によって拡大縮小できる。16、あるいは32 x 32や64 x 64にすることもできる。

例として、64ポートの交換機単一のPodを64×64アーキテクチャに拡張できる場合、ネットワークは以下のネットワークサイズに拡張できる。

上の写真の図面を変形させると、次のような立方体の建築になる。

収束率が1：1の場合：

各ポッド内のスパインとリーフは同数
ポッド内のスパインの数に等しいSSGグループ数
SSGパケット内のスーパースパインの最大数は、ポッド内のスパインアップリンクポート数と同じです。

3、仮想マシンフレームに基づく拡張アプローチ

VMフレームをベースにしたエクステンションも、描き方を変えれば理解しやすくなるだろう。

一例として、64ポートのスイッチを使用した場合、クラスタは以下のようなネットワーク・サイズに拡張できる。

下図のように、キューブ型に変形させることもできる：

4、トラック最適化の場合のネットワーク変更

線路の切り替えの場合、CLOSのアーキテクチャの拡張子のいくつかの変更は、ユーザーが実際のニーズに応じて調整し、変更の多くの形態がありますが、ここでは2つの例を示します。

64ポートのスイッチを例にとると、レールスイッチングの場合、ポッドベースの拡張は以下のパターンに変わる：

上のトラックスワップの場合のグループ分けの図は、描画スタイルを変更し、同じPod内の同じトラックにスパインとリーフを一緒に描画する場合、標準のPodベースの拡張とまったく同じです。

以下は、NVIDIA SU（すなわち、スケーラブル・ユニット）の例である。各SUは、一定数のノード・サーバーを含み、以下は、08Host H100サーバーの例である。08Host H100サーバー256GPU）をネットワーキングの基本単位としており、これは仮想マシン・フレーム・アプローチに基づくスケーリングの例である。

5,VMボックスベースのエクステンションとポッドベースのエクステンションの違い

私たちは、拡張図の2つのセットを一緒に入れて、我々は、スイッチの中間層は、各Podに一対一対応の仮想マシンボックスの拡張に基づいている場合、それは基本的にPodベースの拡張と違いはありませんが、設計思想が異なるが、同じ方法であることがわかります。

アプリケーション・シナリオの観点では、仮想マシン・ボックス・ベースの拡張モードは単一のアプリケーションを実行するシナリオに重点を置き、Podベースの拡張モードはユーザー・インスタンスを区別するシナリオに重点を置く。大規模ネットワークが完全に構築された場合、2つの拡張モードで使用されるスイッチの全体的なサイズは基本的に同じであり、投入コストは同等である。

ステートメント｜コミュニケーションと学習のためだけの記事の公開番号は、主に私の研究ノートや要約のために、コンテンツの一部は、他の記事からの抜粋や他の記事は、原著者や著作権の元のソースによって要約され、この公開番号は、原著者の著作権を保護するためにコミットされ、間違ったラベルやあなたの権利と利益の侵害のソースは、対処するためにタイムリーにご連絡ください。

コメントを残すコメントをキャンセル

支払条件

ファームズ

サービス＆ソリューション

お問い合わせ

ニュースレターに参加する

ソーシャルメディア