本文主要介紹從阿里云日志服務SLS導入數據至DLF 2.0 Catalog的步驟,幫助您全面掌握在DataWorks中配置與使用DLF 2.0 Catalog的關鍵流程,提升數據處理效率與能力。
前提條件
步驟一:添加DLF 2.0數據目錄
在數據開發頁面,選擇一個參加數據開發(Data Studio)(新版)公測的工作空間,單擊進入數據開發。
在左側菜單欄,單擊圖標進入數據目錄。
重要如您未找到該圖標,請重新選擇或創建符合條件的工作空間。詳見前提條件說明。
在DLF Catalog模塊中,單擊添加Catalog。
在DLF Catalog列表中,勾選相應的Catalog,單擊添加。添加后可在DLF Catalog模塊中查看DLF的Catalog、數據庫和數據表。
單擊已添加Catalog右側的圖標,可在該Catalog下新建數據庫。
單擊數據庫右側的圖標,可在該數據庫下新建表。
步驟二:創建DLF 2.0數據源
在數據集成頁面,選擇上述工作空間,單擊進入數據集成。
在左側菜單欄,單擊數據源,進入數據源列表頁。
單擊新增數據源,在對話框中搜索DLF 2.0數據源,點擊添加。
在基礎信息中,配置以下信息:
數據源名稱:必選,工作空間內唯一。
數據源描述:可選,輸入描述信息。
訪問身份:必選,支持使用阿里云賬號(主賬號)、阿里云RAM用戶(即子賬號)、阿里云RAM角色訪問。
DLF數據目錄:必選,選擇上一步添加的Catalog。
數據庫名稱:必選,需要提前在Catalog下創建,或使用default數據庫。
單擊完成,創建DLF 2.0數據源。
步驟三:從SLS同步數據到DLF 2.0 Catalog中
創建同步任務。
在數據集成頁面,選擇上述工作空間,單擊進入數據集成。
在同步任務頁面,單擊新建同步任務。
配置數據源。
在基本配置中,配置以下信息:
數據來源與去向:數據來源為LogHub,去向為DLF 2.0。
新任務名稱:必選,會自動生成,也可手動修改。
任務描述:可選,輸入描述信息。
同步類型:必選,僅支持單表實時。
責任人:可選,可輸入成員名稱搜索。
在網絡與資源配置中,配置資源組、來源數據源、去向數據源,單擊測試連通性,連通無誤后,單擊下一步。
重要若未創建資源組,請在當前頁面創建之后,并前往資源組列表綁定該工作空間。
配置節點信息。
配置SLS來源信息:
SLS來源信息:必選,選擇需要同步的Logstore。
輸出字段配置:可自動獲取或手動指定。
配置DLF 2.0去向信息和字段映射:
目標表:選擇自動建表。
表名:可自動獲取或手動指定。
編輯表結構:添加字段并配置Bucket-Key屬性,字段名可與SLS來源的輸出字段相同,完成后單擊保存。
字段映射:可選擇同名映射或同行映射。
單擊完成配置,創建數據同步任務完成。
返回任務列表,單擊任務操作列中的啟動,開始數據同步。