本文へスキップします。

操作方法 / 操作手順GPUサーバー / OSインストール

OSインストール

BCMサーバーを用いて、GPUサーバーにOSをインストールする流れを次に示します。

1.Networksの設定
GPUサーバーのOSインストール等に必要な3種類のネットワークをBCMサーバーに設定します。

2.Software Imagesの確認
“Software Image” はGPUサーバーにインストールするOSのことを指します。BCMサーバーにはGPUサーバー用のUbuntuイメージが内蔵されており、今回のOSインストールではこれを利用します。

3.Categoriesの設定
”Category”はGPUサーバーをグルーピングすることを指します。

4.Racksの設定
各GPUサーバーを同一ラック/別ラックに分類します。

5.Devicesの設定
ご契約いただいたGPUサーバーを登録します。

6.OSインストール
コントロールパネルからブートオプションを「PXE」に変更し、GPUサーバーの再起動(電源オフ→電源オン)を実施することで自動インストールが開始します。

7.ログイン
BCMサーバーから各GPUサーバーにSSHアクセスします。

8.GPUサーバーのPXEブート解除
6の手順同様、コントロールパネルからブートオプションを「SSD」に変更し、GPUサーバのOSインストールを完了します。

1. Networksの設定

(1)[Networking] → [Networks] を押下する

(2)“managementnet” の設定画面を開く

※ “①managementnet” の設定変更後、“②internalnet” 、“③storage” の順で同様の操作手順を繰り返し実施します。なお、”globalnet” は使用しません。

(3)[Settings] を開く

(4)(①mangementnet画面操作)“Base address” 内を以下のように変更し、[Commit Network] を押下する

注1)BCMサーバーのプライベートIPアドレスは、こちらのBCMサーバーの情報確認をご確認ください。

(5)(②internalnet画面操作)“Base address” 内を以下のように変更し、[Commit Network] を押下する

注2)GPUサーバーのネットワークアドレスは、こちらのGPUサーバーの情報確認をご確認ください。

(6)(③storage画面操作)“Base address” 内を以下のように変更し、[Commit Network] を押下する

注3)GPUサーバーのストレージネットワークのネットワークアドレスはこちらのGPUサーバーの情報確認からご確認ください。

2. Software Imagesの確認

(1)[Provisioning] → [Software Images] → [gb200] → [Settings] でイメージの詳細設定を開き、Kernel versionを確認する

3. Categoriesの設定

(1)[Grouping]→[Categories]を押下する

(2)“gb200-category” を [︙] から [Clone] し、Nameを任意に変更し [Commit Category] を押下する

4. Racksの設定

(1)[Datacenter Infrastructure] → [Racks] を押下する

(2)サンプル(kgc-west-z01-gpu01-r00)を [︙] から [Clone] し、例のように設定し [Commit Rack] を押下する

5. Devicesの設定

(1)[Devices] → [All Devices] を押下する

(2)サンプル(sample-node001)を [︙] から [Clone] を押下する

(3)“Settings” 内を例のように変更する

注1)各対象の設定値はこちらのGPUサーバーの情報確認をご確認ください。

(4)“Installing” 内でブートモードを選択する

(5)“Default gateway” 内で ”Interfaces” の詳細設定を開く

(6)各デバイスをコントロールパネルを参照して設定し、[Commit PhysicalNode] を押下する

(7)完成したDeviceをCloneして、必要に応じてGPUサーバー分のName・Interfacesを設定する

6. OSインストール

(1)コントロールパネルからGPUサーバーのブートオプション変更でブートソースを [PXE](注1)に切り替えて、電源オフ→電源オンを実行する

(20-30分程度で “Status” が “Installing” 状態となります)

注1)オプションの変更はこちらのブートオプションの変更手順をご確認ください。

OSインストールが完了し、“Status” が “Up” 状態となります。

※回線状況やGPUサーバー台数によりますが、40-60分程度かかります。

7. ログイン

(1)GPUサーバーの “Status” が“Up”となっていることを確認し、[︙]メニューから[Connect]→[SSH]を押下する

(2)GPUサーバーにSSH経由で操作することが可能であることを確認する

(3)BCMサーバーにSSHアクセスし(注1)、GPUサーバーにアクセスすることも可能です。

注1)BCMサーバーのSSHポート(22/tcp)へアクセスするためには、別途ファイアウォール設定が必要です。

8. GPUサーバーのPXEブート解除

(1)GPUサーバーにログイン可能となったことを確認し、コントロールパネルからブートオプションを「SSD」(注1)に変更し、GPUサーバのOSインストールが完了となります。

注1)オプションの変更はこちらのブートオプションの変更手順をご確認ください。

OSインストール後の設定

GPU BE設定

(1) netplan設定ファイルのテンプレートをコピーする(GPUサーバーで実行)

# cp /cm/shared/spectrum-x/netplan/hostname_netplan.yaml.template /etc/netplan/${HOSTNAME}_netplan.yaml

(2) コピーした${HOSTNAME}_netplan.yamlを編集する。<roce_rail(x)_IP>はroce_rail(x)のGPU側のIP、<roce_rail(x)_IP_gw>は、roce_rail(x)のGPU側のIPの第4オクテットに+1をしたものに置換する

network:
version: 2
renderer: networkd
ethernets:
roce_rail0:
ignore-carrier: true
addresses: [<roce_rail0_IP>/31]
routes:
- to: 100.aaa.aaa.0/18
via: <roce_rail0_IP_gw>
- to: 100.ppp.0.0/15
via: <roce_rail0_IP_gw>
mtu: 9216
roce_rail1:
ignore-carrier: true
addresses: [<roce_rail1_IP>/31]
routes:
- to: 100.bbb.bbb.0/18
via: <roce_rail1_IP_gw>
- to: 100.ppp.0.0/15
via: <roce_rail1_IP_gw>
mtu: 9216
roce_rail2:
ignore-carrier: true
addresses: [<roce_rail2_IP>/31]
routes:
- to: 100.ccc.ccc.0/18
via: <roce_rail2_IP_gw>
- to: 100.ppp.0.0/15
via: <roce_rail2_IP_gw>
mtu: 9216
roce_rail3:
ignore-carrier: true
addresses: [<roce_rail3_IP>/31]
routes:
- to: 100.ddd.ddd.0/18
via: <roce_rail3_IP_gw>
- to: 100.ppp.0.0/15
via: <roce_rail3_IP_gw>
mtu: 9216

注)IPアドレスの情報はこちらのGPUサーバーの情報確認をご確認ください。

(3)下記コマンドでファイルの再読み込みを実施する

# netplan apply

(4)以下のコマンドを実行し、想定通りNW設定されておりインターフェースがUP状態であることを確認する

# ip addr show

・出力例

<roce_rail0_IP>は仮置き文字となります。

ip addr show
~ 省略 ~
4: roce_rail0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 9216 qdisc mq state UP group default qlen 1000
~ 省略 ~
inet <roce_rail0_IP>/31 scope global roce_rail0
~ 省略 ~
5: roce_rail1: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 9216 qdisc mq state UP group default qlen 1000
~ 省略 ~
inet <roce_rail1_IP>/31 scope global roce_rail1
~ 省略 ~
8: roce_rail2: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 9216 qdisc mq state UP group default qlen 1000
~ 省略 ~
inet <roce_rail2_IP>/31 scope global roce_rail2
~ 省略 ~
9: roce_rail3: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 9216 qdisc mq state UP group default qlen 1000
~ 省略 ~
inet <roce_rail3_IP>/31 scope global roce_rail3

(5)以下のコマンドを実行し、想定通りルーティング設定されていることを確認する

# ip route

・出力例

以下の出力結果は順不同、IPアドレスは例、 <roce_railX_IP_gw>は仮置き文字となります。

ip addr show
100.ppp.0.0/15 via <roce_rail0_IP_gw> dev roce_rail0 proto static
100.ppp.0.0/15 via <roce_rail1_IP_gw> roce_rail1 proto static
100.ppp.0.0/15 via <roce_rail2_IP_gw> dev roce_rail2 proto static
100.ppp.0.0/15 via <roce_rail3_IP_gw> dev roce_rail3 proto static
100.aaa.aaa.0/18 via <roce_rail0_IP_gw> dev roce_rail0 proto static
100.bbb.bbb.0/18 via <roce_rail1_IP_gw> dev roce_rail1 proto static
100.ccc.ccc.0/18 via <roce_rail2_IP_gw> dev roce_rail2 proto static
100.ddd.ddd.0/18 via <roce_rail3_IP_gw> dev roce_rail3 proto static

操作方法

操作手順・GPUサーバー

キーワード検索