使用自定義數據集成資源組運行數據同步任務,能夠幫助您解決DataWorks公共資源組與您的數據源無法連通的問題,實現更高速的傳輸。本文為您介紹如何新增并使用自定義數據集成資源組。

前提條件

  • 購買DataWorks

    僅DataWorks專業版及以上版本支持使用自定義數據集成資源組。您需要提前購買DataWorks專業版及以上版本,購買詳情請參見DataWorks版本服務計費說明

  • 已有自有服務器資源

    使用自定義數據集成資源組之前,您需要已有自有服務器資源。本文以使用ECS服務器示例,為您介紹使用自定義數據集成資源組之前與自有服務器相關的準備工作,詳情請參見準備工作

使用限制

  • 權限限制

    僅擁有空間管理員角色權限的用戶支持新增或修改自定義數據集成資源組。如果指定用戶需要新增或修改自定義數據集成資源組,則可授權該用戶為空間管理員角色,詳情請參見空間級模塊權限管控

  • 與ECS服務器相關的限制
    • 自定義數據集成資源組所在的ECS服務器的時間與當前互聯網時間差必須在2分鐘之內,否則會導致部署的資源組服務請求接口超時,服務異常,無法執行任務。
    • 一臺ECS機器只能添加于一個自定義數據集成資源組,每個資源組只能選擇一種網絡類型。
  • 使用范圍限制
    • 自定義數據集成資源組只能給當前工作空間作為數據同步資源組使用,不會顯示在資源組列表頁面。
    • 自定義數據集成資源組不支持給手動業務流程的數據同步節點使用。

準備工作

  1. 購買云服務器ECS。
    購買ECS云服務器的具體操作請參見購買ECS云服務器
    說明
    • 請使用CentOS 6、CentOS 7或Aliyun OS操作系統。
    • 如果您添加的ECS需要執行MaxCompute引擎任務或數據同步任務,則需要檢查當前ECS的Python版本是否為Python2.6或2.7(CentOS 5的版本為Python 2.4,其它OS自帶Python 2.6以上版本)。
    • 請確保ECS具有訪問公網的能力,您可以使用ping www.aliyun.com命令查看連通性。
    • 建議ECS的配置為8核16G。
  2. 查看ECS主機名和內網IP地址。
    登錄云服務器ECS控制臺,在實例頁面,查看購買的ECS主機名和IP地址。主機名和IP地址用于后續自定義數據集成資源組添加ECS服務器。查看ECS
  3. 開通8000端口。
    開通8000端口便于您讀取日志,定位問題。
    說明
    • 如果您的ECS是VPC專有網絡類型,則無需開通8000端口。下述步驟僅適用于經典網絡。
    • 如果您發現alisatasknode日志中有超時報錯信息response code is not 200,通常是因為某個時間段訪問服務接口不穩定的異常導致。如果異常持續時間小于10分鐘,自定義資源組服務器依然可以正常服務。您可以查看日志/home/admin/alisatasknode/logs/heartbeat.log進行確認。
    1. 進入安全組頁面。
      進入ECS服務器的安全組列表頁面。
    2. 單擊目標安全組操作列的配置規則
    3. 開通8000端口。
      安全組規則 > 入方向頁簽,單擊手動添加,設置端口范圍8000/8000授權對象為數據集成的固定IP。手動添加
    4. 單擊保存,成功開通8000端口。

操作流程

使用自定義數據集成資源組的主要操作流程如下:
  1. 自定義數據集成資源組使用前準備工作
  2. 新增并配置自定義數據集成資源組
  3. 使用自定義數據集成資源組
自定義數據集成資源組配置完成后,可能出現的常見問題及解決方案,可參見常見問題;后續對?資源組的相關管理操作,可參見管理自定義數據集成資源組

新增并配置自定義數據集成資源組

  1. 進入數據集成頁面。
    1. 登錄DataWorks控制臺
    2. 在左側導航欄,單擊工作空間列表
    3. 選擇工作空間所在地域后,單擊相應工作空間后的數據集成
  2. 進入自定義資源組管理
    數據集成頁面左側導航欄,單擊配置選項 > 自定義資源組,進入自定義資源組管理頁面。
    重要 該頁面不顯示公共資源組,僅顯示您添加的自定義數據集成資源組。
  3. 創建并配置自定義數據集成資源組。
    1. 自定義資源組管理頁面,單擊右上方的創建自定義資源組
    2. 配置資源組基本信息。
      1. 創建自定義資源組 > 創建資源組頁簽,輸入資源組名稱
        說明 數據源名稱必須以字母、數字、下劃線(_)組合,且不能以數字和下劃線(_)開頭。
      2. 單擊下一步
    3. 資源組添加服務器。
      1. 添加服務器
        參數 描述
        網絡類型 包括阿里云經典網絡專有網絡
        說明 除華東2(上海)地域支持經典網絡外,其它地域僅支持專有網絡
        服務器名稱 輸入服務器名稱。您可以登錄ECS,執行hostname命令,獲取服務器名稱。
        說明 僅當網絡類型 選擇阿里云經典網絡時,需要配置該參數。
        ECS UUID 輸入ECS UUID。 您可以登錄ECS,執行dmidecode | grep UUID命令,獲取ECS UUID
        說明 僅當網絡類型 選擇專有網絡時,需要配置該參數。
        機器IP 請輸入內網機器IP。
        機器CPU(核) 建議自定義資源組機器CPU配置至少為4核。
        機器內存(GB) 建議自定義資源組機器內存配置至少為8 GB RAM和80 GB磁盤。
      2. 單擊下一步
    4. 安裝Agent。
      1. 根據安裝Agent對話框中的提示,依次操作。安裝Agent
        說明
        • 如果執行install.sh命令時出錯或需要重新執行,您需要在install.sh的同一個目錄下先執行rm –rf install.sh命令,刪除已經生成的文件,再執行install.sh
        • 初始化界面對于每個用戶的命令都不一樣,請根據自己的初始化界面執行相關命令。
      2. 單擊下一步
    5. 檢查連通性。
      檢查連通頁簽,單擊刷新,確認服務器的當前狀態
      • 當服務器狀態為可用時,表示資源組和服務器連通,您可以正常使用資源組。
      • 當服務器狀態為不可用時,表示資源組和服務器未連通,您需要根據實際情況排查處理。
  4. 單擊完成,成功創建并配置自定義數據集成資源組。
    新增并配置完成自定義數據集成資源組后,可能出現的問題與解決方案,詳情請參見常見問題

使用自定義數據集成資源組

自定義數據集成資源組創建并配置完成后,您可以通過如下方式切換任務使用的資源組為自定義數據集成資源組。
說明 僅離線同步任務支持切換自定義數據集成資源組。
操作環境 支持的切換操作 界面入口
切換生產環境資源組 批量切換 進入運維中心 > 周期任務界面設置。
勾選需要修改資源組的任務,單擊更多按鈕,選擇修改數據集成資源組,即可批量修改。批量切換
切換開發環境資源組
  • 單個任務切換
  • 批量切換
進入DataStudio頁面設置。
  • 單個任務切換
    進入目標節點的編輯頁面,在右側導航欄的數據集成資源組配置中即可修改。切換單個資源組
  • 批量切換
    單擊批量操作圖標,勾選需要修改資源組的任務,單擊底部菜單欄的修改數據集成資源組,即可批量修改。批量操作

管理自定義數據集成資源組

自定義數據集成資源組創建并配置完成后,您可以在自定義資源組管理頁面,查看資源組的網絡類型、綁定的服務器等信息,或對目標資源組執行服務器初始化管理刪除等操作。刪除自定義數據集成資源組。
  • 管理:用于查看資源組所綁定服務器的IP、狀態、資源使用率等信息。您也可以修改、刪除資源組所綁定的服務器,或為該資源組添加新的服務器。具體操作,詳情請參見新增并配置自定義數據集成資源組添加服務器步驟。
    說明
    • 資源使用率不為0%時,表示該資源組當前的服務器中存在運行中的任務。
    • 資源組添加新服務器后,必須執行服務器初始化操作。
  • 服務器初始化:資源組添加服務器后,需要執行初始化操作。
    單擊服務器初始化,按照所示步驟進行初始化。服務器初始化
  • 刪除:單擊刪除,即可刪除目標資源組。
    說明 DataWorks不支持刪除存在運行任務的資源組,執行刪除操作前,您需要確保目標資源組中不存在運行狀態的任務。

    您可以進入運維中心 > 周期任務運維 > 周期任務頁面,通過資源組名稱進行篩選,查看資源組中任務的運行狀態,詳情請參見查看并管理周期任務

常見問題

新增并配置完成自定義數據集成資源組后,如果添加的ECS服務器一直處于停止狀態,則可能會出現下圖中的問題。停止
您需要按照如下步驟排查處理:
  1. 切換至Root賬號。
  2. 執行hostname -i命令,查看Host的綁定情況。
  3. 執行vim/etc/hosts命令,添加IP地址和主機名。
  4. 刷新頁面服務狀態,查看ECS服務器是否注冊成功。
    • 如果刷新后ECS服務器為啟用狀態,則問題已解決。
    • 如果刷新后ECS服務器仍為停止狀態,請按如下步驟重啟alisa。
      1. 切換至Admin賬號。
      2. 執行/home/admin/alisatasknode/target/alisatasknode/bin/serverctl restart命令重啟alisa。
        說明 命令中涉及您的訪問密鑰,請勿輕易泄露。