若運行在獨享調度資源組上的任務執行時需依賴第三方包,為保障任務可順利執行,您需要先通過該資源組的運維助手功能,將相應的第三方包安裝至獨享調度資源組。DataWorks的運維助手提供了多種內置的第三方包,可直接安裝使用,若內置的第三方包無法滿足您的業務需要,您也可通過Shell命令手動上傳所需的包或資源文件進行安裝。
前提條件
已創建獨享調度資源組。僅獨享調度資源組支持使用運維助手功能。創建獨享調度資源組,詳情請參見新增和使用獨享調度資源組。
已擁有AliyunDataWorksFullAccess或ModifyResourceGroup權限策略。授權詳情請參見產品及控制臺權限控制詳情:RAM Policy。
使用限制
運維助手功能的使用限制如下:
僅支持用于獨享調度資源組,不支持用于獨享數據集成資源組、Serverless資源組。
僅支持新建安裝第三方包的命令,不支持修改命令。
僅支持上傳不超過50M的資源至獨享調度資源組。
說明對于超過50M的MaxCompute類型資源,您可通過DataWorks可視化方式上傳,詳情請參見創建并使用MaxCompute資源。
通過獨享調度資源組的運維助手安裝的Python第三方包,僅支持在該獨享調度資源組運行PyODPS任務時引用。
說明如需在MaxCompute的Python UDF中引用Python第三方包,請參見UDF示例:Python UDF使用第三方包。
進入運維助手
登錄DataWorks控制臺,切換至目標地域后,單擊左側導航欄的資源組,進入資源組列表頁面。
在獨享資源組頁簽,找到用途為數據調度的資源組,單擊資源組后的圖標,選擇運維助手,進入所選資源組的運維助手頁面。
您可根據需要創建命令,通過命令安裝執行任務所需的第三方包。
說明運維助手只能用于獨享調度資源組,不能用于獨享數據集成資源組、Serverless資源組。
安裝第三方包
創建用于安裝第三方包的命令。
安裝的第三方包可被當前資源組運行調度任務時使用。在所選資源組的運維助手頁面,單擊創建命令,可選擇使用快捷方式或手動輸入方式創建命令。
方式一:快捷方式
該方式用于安裝DataWorks提供的內置第三方包。
核心參數說明如下。
參數
描述
命令名稱
自定義名稱。
命令類型
選擇快捷安裝環境。
該方式下,DataWorks會根據所選的第三方包自動生成安裝該第三方包的Shell命令。
內置第三方包
選擇要安裝的第三方包及其對應版本。
DataWorks內置多種Python2、Python3、Yum類型的第三方包,您可根據需要選擇。常用的第三方包,例如:
Aliyun-python-sdk-core:阿里云提供的Python SDK的核心庫,是與阿里云的云服務進行交互時使用的基礎庫,提供了基本的API調用和認證功能。
NumPy:提供了高性能的多維數組和數值計算功能,是進行科學計算和數據分析的基礎庫。
Pandas:提供了高性能、易用的數據結構和數據分析工具,用于處理和分析結構化數據。
更多支持的第三方包請參見實際的功能界面。
生成的Shell
DataWorks將根據您所選的安裝包,自動生成相應Shell命令。
后續可通過執行該命令,安裝相應的第三方包。
例如,選擇aliyun-python-sdk-core安裝包后,平臺將自動生成安裝該第三方包的pip install aliyun-python-sdk-core命令。
超時時間
命令執行的超時時間,單位為秒。超時后DataWorks會強制結束正在執行的命令。
方式二:手動輸入
若內置的第三方包無法滿足您的業務需要,則可手動輸入Shell命令上傳所需包或資源文件。
說明手動輸入方式無法使用PIP命令安裝第三方包。
參數
描述
命令名稱
自定義名稱。
命令類型
選擇手動輸入。
您需手動輸入上傳本地包或資源文件的Shell命令。
命令內容
您需在此輸入需要執行的命令內容,例如:
yum install -y git
。說明通過手動輸入的命令執行時無法保證成功率。
資源上傳完成后,在數據開發(DataStudio)的節點任務中引用該資源時需要使用絕對路徑。
安裝目錄
配置待執行命令所在的目錄。DataWorks會將該目錄添加至白名單,保證該目錄可訪問。多個目錄之間使用英文分號(;)分隔。
說明可選擇安裝第三方包至/home/目錄、非/home/目錄。對于/home/目錄,僅支持存放待執行命令至獨享調度資源組的/home/admin/usertools/tools/路徑下。
若未指定安裝目錄,將默認安裝至/home/admin/usertools/tools/路徑下。
超時時間
命令執行的超時時間,單位為秒。超時后DataWorks會強制結束正在執行的命令。
單擊創建,完成創建。
執行命令。
命令創建完成后,您需在該資源組的運維助手頁面,單擊所創建命令操作列的運行命令,安裝相應第三方包。安裝成功后,后續可使用該第三方包在當前資源組中運行相關調度任務。
管理命令
您可在當前資源組的運維助手頁面,對已創建的命令執行如下操作:
您也可單擊查看環境配置詳情,查看當前資源組的整體環境配置情況。例如,已安裝的第三方包、第三方包的版本及狀態。
查看命令:查看命令的執行狀態、執行ID、命令內容等基本信息。
查看運行結果:查看命令運行成功或失敗,根據日志分析運行失敗的原因并處理。
聯系技術支持:如您遇到無法解決的問題,可根據界面指引加入DataWorks用戶交流群,聯系技術支持解決。
后續操作
第三方包安裝完成后,使用當前獨享調度資源組運行調度任務時便可引用該包。使用示例參考如下: