
AIの大規模モデル訓練シナリオでは、クラスターネットワークアーキテクチャーの利点と欠点が、スマートコンピューティングネットワークのパフォーマンス、スケーラビリティ、安定性に直接影響する。CLOSネットワーク・アーキテクチャCLOSは、クラウドデータセンター、スマートコンピューティングセンター、ハイパフォーマンス・コンピューティング環境で広く使用されているネットワーク・アーキテクチャである。 この論文の焦点は、CLOSアーキテクチャを通じて、さまざまなサイズのパラメータ・プレーン・ネットワーク(トレーニング・ネットワーク)を構築する方法を紹介することである。
1,CLOS インフラとエクステンション
CLOSアーキテクチャの最もクリーンな展開は、スパインリーフ2層ネットワークアーキテクチャである。
古典的なCLOSアーキテクチャでは
- すべてのスイッチは同じポート数(n)を持つ(注:実際のネットワークでは異なる場合もあるが、ここでは同じとみなす)。
- 1:1の収束比
- 2層CLOSの場合:アクセスするサーバーポートの最大数はn*n/2で、n=64の場合、アクセスするサーバーポートの数は2048となる。
上記のSpine-Leafの2層ネットワーキング・アーキテクチャを見ればわかる:
- アクセスできるサーバーの数は、リーフ・スイッチのダウンリンク・ポートの数とリーフ・スイッチの台数によって決まります。
- スパインスイッチの数は、リーフスイッチのアップリンクポート数によって決まります。
- リーフスイッチの数は、スパインスイッチのインターフェイス数によって決まります。
しかし、2層CLOSアーキテクチャでアクセスできるサーバーのネットワークポート数は限られており、ネットワーク規模が大きい場合には、2層CLOSアーキテクチャを拡張する必要があり、それぞれ仮想マシンフレームの拡張とPodベースの拡張方式による2つの主要な拡張モードに対応している。
2、ポッドベースの改良普及プログラム
ポッド拡張スキームに基づき、描画方法を変更した場合、下図のようにSS1はSS3とグループ化され、SS2はSS4とグループ化される。
クラスタ全体のサイズは、各PodのサイズとPodの数によって決まります。
各ポッドのサイズは、リーフ・スパイン・グループ・アーキテクチャー(リーフとスパインの数をnとすると、n×nの異なるサイズのポッド・アーキテクチャーを形成できる)によって拡大縮小できる。16、あるいは32 x 32や64 x 64にすることもできる。
例として、64ポートの交換機単一のPodを64×64アーキテクチャに拡張できる場合、ネットワークは以下のネットワークサイズに拡張できる。
上の写真の図面を変形させると、次のような立方体の建築になる。
収束率が1:1の場合:
- 各ポッド内のスパインとリーフは同数
- ポッド内のスパインの数に等しいSSGグループ数
- SSGパケット内のスーパースパインの最大数は、ポッド内のスパインアップリンクポート数と同じです。
3、仮想マシンフレームに基づく拡張アプローチ
VMフレームをベースにしたエクステンションも、描き方を変えれば理解しやすくなるだろう。
一例として、64ポートのスイッチを使用した場合、クラスタは以下のようなネットワーク・サイズに拡張できる。
下図のように、キューブ型に変形させることもできる:
4、トラック最適化の場合のネットワーク変更
線路の切り替えの場合、CLOSのアーキテクチャの拡張子のいくつかの変更は、ユーザーが実際のニーズに応じて調整し、変更の多くの形態がありますが、ここでは2つの例を示します。
64ポートのスイッチを例にとると、レールスイッチングの場合、ポッドベースの拡張は以下のパターンに変わる:
上のトラックスワップの場合のグループ分けの図は、描画スタイルを変更し、同じPod内の同じトラックにスパインとリーフを一緒に描画する場合、標準のPodベースの拡張とまったく同じです。
以下は、NVIDIA SU(すなわち、スケーラブル・ユニット)の例である。各SUは、一定数のノード・サーバーを含み、以下は、08Host H100サーバーの例である。08Host H100サーバー256GPU)をネットワーキングの基本単位としており、これは仮想マシン・フレーム・アプローチに基づくスケーリングの例である。
5,VMボックスベースのエクステンションとポッドベースのエクステンションの違い
私たちは、拡張図の2つのセットを一緒に入れて、我々は、スイッチの中間層は、各Podに一対一対応の仮想マシンボックスの拡張に基づいている場合、それは基本的にPodベースの拡張と違いはありませんが、設計思想が異なるが、同じ方法であることがわかります。
アプリケーション・シナリオの観点では、仮想マシン・ボックス・ベースの拡張モードは単一のアプリケーションを実行するシナリオに重点を置き、Podベースの拡張モードはユーザー・インスタンスを区別するシナリオに重点を置く。大規模ネットワークが完全に構築された場合、2つの拡張モードで使用されるスイッチの全体的なサイズは基本的に同じであり、投入コストは同等である。
ステートメント|コミュニケーションと学習のためだけの記事の公開番号は、主に私の研究ノートや要約のために、コンテンツの一部は、他の記事からの抜粋や他の記事は、原著者や著作権の元のソースによって要約され、この公開番号は、原著者の著作権を保護するためにコミットされ、間違ったラベルやあなたの権利と利益の侵害のソースは、対処するためにタイムリーにご連絡ください。