通用環(huán)境變量列表
提交DLC訓(xùn)練任務(wù)時(shí),PAI會(huì)自動(dòng)注入多個(gè)通用環(huán)境變量,便于您在代碼中直接使用。本文為您介紹DLC系統(tǒng)中默認(rèn)提供的環(huán)境變量列表。
公共環(huán)境變量
基于靈駿智算的環(huán)境變量,關(guān)于環(huán)境變量的說(shuō)明,請(qǐng)參見(jiàn)配置高性能網(wǎng)絡(luò)變量。
PyTorch環(huán)境變量
在PyTorch分布式訓(xùn)練框架中,Master和Worker扮演不同的角色并需要相互建立連接以進(jìn)行通信。在DLC中,一系列環(huán)境變量被用于同步關(guān)鍵信息,例如將Master的地址和端口號(hào)傳遞給Worker。DLC為PyTorch訓(xùn)練配置的一些通用環(huán)境變量如下:
環(huán)境變量名 | 描述 |
MASTER_ADDR | Master節(jié)點(diǎn)地址。例如: |
MASTER_PORT | Master節(jié)點(diǎn)端口。例如:23456。 |
WORLD_SIZE | 分布式作業(yè)的節(jié)點(diǎn)總數(shù)。例如,若提交一個(gè)包含1個(gè)Master和1個(gè)Worker的作業(yè),則WORLD_SIZE設(shè)置為2。 |
RANK | 節(jié)點(diǎn)的Index。例如,若提交一個(gè)包含1個(gè)Master和2個(gè)Worker的作業(yè),則Master上設(shè)置的RANK為0,Worker-0設(shè)置的RANK為1, Worker-1設(shè)置的RANK為2。 |
TensorFlow環(huán)境變量
TensorFlow分布式作業(yè)通過(guò)TF_CONFIG環(huán)境變量來(lái)構(gòu)建分布式的網(wǎng)絡(luò)拓?fù)湫畔ⅰLC為TensorFlow訓(xùn)練配置的通用環(huán)境變量如下:
環(huán)境變量名 | 描述 |
TF_CONFIG | TensorFlow分布式網(wǎng)絡(luò)拓?fù)湫畔ⅲ纠缦拢?/p>
|