您可以通過DataWorks的數據抽樣采集器功能,從CDH Hive表中隨機抽取表的部分數據用于數據保護傘的敏感數據識別。如果您在數據保護傘中配置了脫敏規則,那么在數據地圖表詳情頁面進行數據預覽時,命中的敏感字段將會被脫敏。本文為您介紹如何新建CDH Hive數據抽樣采集器。
前提條件
已購買并創建DataWorks的新版資源組(通用型資源組)或獨享調度資源組。詳情請參見:新增和使用新版資源組、新增和使用獨享調度資源組。
在工作空間注冊CDH集群后,您才可以進行CDH數據抽樣采集操作,詳情請參見注冊CDH或CDP集群至DataWorks。
使用限制
目前僅上海和成都地域可以使用數據抽樣采集器功能。
支持基于集群按照數據庫進行數據抽樣采集。一個集群僅支持新建一個采集器,一個采集器中可以選擇一個或多個需要進行數據抽樣采集的數據庫。
選擇集群后,如果不選擇數據庫,默認對所有數據庫下的表進行數據抽樣。
阿里云主賬號,擁有AliyunDataWorksFullAccess權限的子賬號可以進行采集。
CDH Hive新增、變更、刪除表后需要重新進行數據抽樣采集。
目前僅支持手動采集。
新建采集器
在左側菜單欄,單擊數據發現。
在數據源視角找到CDH Hive(僅限數據抽樣使用)采集器。
單擊右上角的管理,默認進入已采集列表。
您可以單擊進入未采集列表頁面,查看未創建數據抽樣采集器的列表詳情。
單擊右上角的新建數據抽樣采集器進行配置。
參數
描述
集群
下拉列表中展示當前Region下DataWorks已注冊的CDH集群。您可以選擇需要采集數據的CDH集群。詳情請參見:對接使用CDH與CDP。
數據庫
選擇需要進行數據抽樣采集的數據庫。如果不選擇,默認對該集群內所有數據庫的表數據進行抽樣采集。
獨享資源組
選擇在注冊CDH集群時,網絡已連通的資源組。
抽樣采集服務
選擇需要進行數據抽樣采集的服務。詳情請參見:對接使用CDH與CDP。
采集賬號
為您展示用于此次數據抽樣采集的賬號,該賬號將自動根據工作空間注冊開源集群頁面配置的賬號映射關系進行讀取。詳情請參見:創建并管理工作空間
執行計劃
定義該采集器多久進行一次數據抽樣采集,目前僅支持按需采集。
單擊確認,采集器創建完成。
管理采集器
您可以在已采集列表頁面,查看相應采集器的運行狀態、執行計劃、上次運行時間、上次消耗時間及平均運行耗時等信息,同時,您還可以對目標采集器執行如下操作:
詳情:查看目標采集器所配置的詳細信息。
編輯:修改目標采集器所配置的集群、獨享資源組等信息。
刪除:刪除目標采集器。
運行:運行采集器,根據目標采集器的配置信息采集數據。運行后,識別出的敏感字段會展示在數據保護傘頁面,當您在數據保護傘中配置脫敏規則后,命中的敏感字段在數據地圖中預覽時將會被脫敏。
停止:停止運行中的采集器。
后續步驟
CDH Hive數據抽樣采集成功,如果您已在數據保護傘中配置脫敏規則,那么在數據地圖表詳情頁面進行表數據預覽時,命中脫敏規則的敏感字段將會被脫敏。詳情請參見:數據保護傘、查看表詳情。