操作方法 / 操作手順GPUサーバー / OSインストール
OSインストール
BCMサーバーを用いて、GPUサーバーにOSをインストールする流れを次に示します。
1.Networksの設定
GPUサーバーのOSインストール等に必要な3種類のネットワークをBCMサーバーに設定します。
2.Software Imagesの確認
“Software Image” はGPUサーバーにインストールするOSのことを指します。BCMサーバーにはGPUサーバー用のUbuntuイメージが内蔵されており、今回のOSインストールではこれを利用します。
3.Categoriesの設定
”Category”はGPUサーバーをグルーピングすることを指します。
4.Racksの設定
各GPUサーバーを同一ラック/別ラックに分類します。
5.Devicesの設定
ご契約いただいたGPUサーバーを登録します。
6.OSインストール
コントロールパネルからブートオプションを「PXE」に変更し、GPUサーバーの再起動(電源オフ→電源オン)を実施することで自動インストールが開始します。
7.ログイン
BCMサーバーから各GPUサーバーにSSHアクセスします。
8.GPUサーバーのPXEブート解除
6の手順同様、コントロールパネルからブートオプションを「SSD」に変更し、GPUサーバのOSインストールを完了します。
1. Networksの設定
(1)[Networking] → [Networks] を押下する
(2)“managementnet” の設定画面を開く
※ “①managementnet” の設定変更後、“②internalnet” 、“③storage” の順で同様の操作手順を繰り返し実施します。なお、”globalnet” は使用しません。
(3)[Settings] を開く
(4)(①mangementnet画面操作)“Base address” 内を以下のように変更し、[Commit Network] を押下する
注1)BCMサーバーのプライベートIPアドレスは、こちらのBCMサーバーの情報確認をご確認ください。
(5)(②internalnet画面操作)“Base address” 内を以下のように変更し、[Commit Network] を押下する
注2)GPUサーバーのネットワークアドレスは、こちらのGPUサーバーの情報確認をご確認ください。
(6)(③storage画面操作)“Base address” 内を以下のように変更し、[Commit Network] を押下する
注3)GPUサーバーのストレージネットワークのネットワークアドレスはこちらのGPUサーバーの情報確認からご確認ください。
2. Software Imagesの確認
(1)[Provisioning] → [Software Images] → [gb200] → [Settings] でイメージの詳細設定を開き、Kernel versionを確認する
3. Categoriesの設定
(1)[Grouping]→[Categories]を押下する
(2)“gb200-category” を [︙] から [Clone] し、Nameを任意に変更し [Commit Category] を押下する
4. Racksの設定
(1)[Datacenter Infrastructure] → [Racks] を押下する
(2)サンプル(kgc-west-z01-gpu01-r00)を [︙] から [Clone] し、例のように設定し [Commit Rack] を押下する
5. Devicesの設定
(1)[Devices] → [All Devices] を押下する
(2)サンプル(sample-node001)を [︙] から [Clone] を押下する
(3)“Settings” 内を例のように変更する
注1)各対象の設定値はこちらのGPUサーバーの情報確認をご確認ください。
(4)“Installing” 内でブートモードを選択する
(5)“Default gateway” 内で ”Interfaces” の詳細設定を開く
(6)各デバイスをコントロールパネルを参照して設定し、[Commit PhysicalNode] を押下する
(7)完成したDeviceをCloneして、必要に応じてGPUサーバー分のName・Interfacesを設定する
6. OSインストール
(1)コントロールパネルからGPUサーバーのブートオプション変更でブートソースを [PXE](注1)に切り替えて、電源オフ→電源オンを実行する
(20-30分程度で “Status” が “Installing” 状態となります)
注1)オプションの変更はこちらのブートオプションの変更手順をご確認ください。
OSインストールが完了し、“Status” が “Up” 状態となります。
※回線状況やGPUサーバー台数によりますが、40-60分程度かかります。
7. ログイン
(1)GPUサーバーの “Status” が“Up”となっていることを確認し、[︙]メニューから[Connect]→[SSH]を押下する
(2)GPUサーバーにSSH経由で操作することが可能であることを確認する
(3)BCMサーバーにSSHアクセスし(注1)、GPUサーバーにアクセスすることも可能です。
注1)BCMサーバーのSSHポート(22/tcp)へアクセスするためには、別途ファイアウォール設定が必要です。
8. GPUサーバーのPXEブート解除
(1)GPUサーバーにログイン可能となったことを確認し、コントロールパネルからブートオプションを「SSD」(注1)に変更し、GPUサーバのOSインストールが完了となります。
注1)オプションの変更はこちらのブートオプションの変更手順をご確認ください。
OSインストール後の設定
GPU BE設定
(1) netplan設定ファイルのテンプレートをコピーする(GPUサーバーで実行)
# cp /cm/shared/spectrum-x/netplan/hostname_netplan.yaml.template /etc/netplan/${HOSTNAME}_netplan.yaml
(2) コピーした${HOSTNAME}_netplan.yamlを編集する。<roce_rail(x)_IP>はroce_rail(x)のGPU側のIP、<roce_rail(x)_IP_gw>は、roce_rail(x)のGPU側のIPの第4オクテットに+1をしたものに置換する
network:
version: 2
renderer: networkd
ethernets:
roce_rail0:
ignore-carrier: true
addresses: [<roce_rail0_IP>/31]
routes:
- to: 100.aaa.aaa.0/18
via: <roce_rail0_IP_gw>
- to: 100.ppp.0.0/15
via: <roce_rail0_IP_gw>
mtu: 9216
roce_rail1:
ignore-carrier: true
addresses: [<roce_rail1_IP>/31]
routes:
- to: 100.bbb.bbb.0/18
via: <roce_rail1_IP_gw>
- to: 100.ppp.0.0/15
via: <roce_rail1_IP_gw>
mtu: 9216
roce_rail2:
ignore-carrier: true
addresses: [<roce_rail2_IP>/31]
routes:
- to: 100.ccc.ccc.0/18
via: <roce_rail2_IP_gw>
- to: 100.ppp.0.0/15
via: <roce_rail2_IP_gw>
mtu: 9216
roce_rail3:
ignore-carrier: true
addresses: [<roce_rail3_IP>/31]
routes:
- to: 100.ddd.ddd.0/18
via: <roce_rail3_IP_gw>
- to: 100.ppp.0.0/15
via: <roce_rail3_IP_gw>
mtu: 9216
注)IPアドレスの情報はこちらのGPUサーバーの情報確認をご確認ください。
(3)下記コマンドでファイルの再読み込みを実施する
# netplan apply
(4)以下のコマンドを実行し、想定通りNW設定されておりインターフェースがUP状態であることを確認する
# ip addr show
・出力例
<roce_rail0_IP>は仮置き文字となります。
ip addr show
~ 省略 ~
4: roce_rail0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 9216 qdisc mq state UP group default qlen 1000
~ 省略 ~
inet <roce_rail0_IP>/31 scope global roce_rail0
~ 省略 ~
5: roce_rail1: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 9216 qdisc mq state UP group default qlen 1000
~ 省略 ~
inet <roce_rail1_IP>/31 scope global roce_rail1
~ 省略 ~
8: roce_rail2: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 9216 qdisc mq state UP group default qlen 1000
~ 省略 ~
inet <roce_rail2_IP>/31 scope global roce_rail2
~ 省略 ~
9: roce_rail3: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 9216 qdisc mq state UP group default qlen 1000
~ 省略 ~
inet <roce_rail3_IP>/31 scope global roce_rail3
(5)以下のコマンドを実行し、想定通りルーティング設定されていることを確認する
# ip route
・出力例
以下の出力結果は順不同、IPアドレスは例、 <roce_railX_IP_gw>は仮置き文字となります。
ip addr show
100.ppp.0.0/15 via <roce_rail0_IP_gw> dev roce_rail0 proto static
100.ppp.0.0/15 via <roce_rail1_IP_gw> roce_rail1 proto static
100.ppp.0.0/15 via <roce_rail2_IP_gw> dev roce_rail2 proto static
100.ppp.0.0/15 via <roce_rail3_IP_gw> dev roce_rail3 proto static
100.aaa.aaa.0/18 via <roce_rail0_IP_gw> dev roce_rail0 proto static
100.bbb.bbb.0/18 via <roce_rail1_IP_gw> dev roce_rail1 proto static
100.ccc.ccc.0/18 via <roce_rail2_IP_gw> dev roce_rail2 proto static
100.ddd.ddd.0/18 via <roce_rail3_IP_gw> dev roce_rail3 proto static