DataWorks支持多種脫敏場景,您需根據需要選擇合適場景創建相應數據脫敏規則。本文為您介紹如何創建脫敏規則,并在DataWorks中進行脫敏查詢。
背景信息
DataWorks的脫敏場景分為靜態脫敏和動態脫敏:
動態脫敏:包括數據開發/數據地圖展示脫敏、數據分析展示脫敏、MaxCompute引擎層脫敏、Hologres引擎層脫敏等場景。
靜態脫敏:指數據集成靜態脫敏場景。
脫敏規則創建后默認為不生效的狀態,您需將脫敏規則設置為生效,后續對應脫敏場景下才會根據規則對數據自動脫敏。
設置脫敏規則生效狀態,請參見配置脫敏規則生效或失效。
各脫敏場景的詳細介紹,請參見脫敏場景介紹。
前提條件
(可選,僅動態脫敏需要)已根據業務需要配置好敏感數據識別規則,便于后續創建數據脫敏規則時關聯需要應用脫敏的字段,操作詳情請參見敏感數據識別規則。
(可選,僅動態脫敏需要)如果您希望通過白名單控制部分用戶在指定時間段內不受脫敏規則影響,可查看未脫敏數據,您需要提前將白名單用戶添加為用戶組,操作詳情請參見配置用戶組。
(可選,僅MaxCompute引擎層脫敏需要)如果您需要配置的脫敏場景為MaxCompute引擎層脫敏,即除DataWorks入口外,使用MaxCompute命令行/客戶端(odpscmd)、Logview入口等查詢數據時,對敏感數據根據脫敏規則進行脫敏,您需要申請MaxCompute的網絡白名單,便于調用脫敏函數進行脫敏,詳情請參見實踐示例:MaxCompute底層脫敏使用方法(舊版)。
權限控制
配置脫敏規則(新增、編輯、刪除):
租戶管理員、租戶安全管理員可選擇基于所有脫敏場景執行相關脫敏規則操作。
空間管理員、空間安全管理員僅支持選擇自己有權限的脫敏場景執行相關脫敏規則操作。
配置脫敏白名單(新增、編輯、刪除):
租戶管理員、租戶安全管理員可選擇基于所有脫敏場景執行白名單配置操作。
空間管理員、空間安全管理員僅支持選擇自己有權限的脫敏場景執行相關白名單配置操作。
脫敏規則配置入口
進入數據開發頁面。
登錄DataWorks控制臺,切換至目標地域后,單擊左側導航欄的 ,在下拉框中選擇對應工作空間后單擊進入數據開發。
單擊左上方的圖標,選擇
,單擊立即體驗,進入數據保護傘。說明若阿里云主賬號已授權,則直接進入數據保護傘的首頁。
若阿里云主賬號未授權,則進入數據保護傘的授權頁面。授權后才可使用保護傘的相關功能。
在左側導航欄,單擊 ,進入數據脫敏管理頁面。
在左側選擇指定脫敏場景后,單擊右側的+脫敏規則,基于該場景創建脫敏規則。
動態脫敏:各場景規則配置類似,本文以數據開發/數據地圖展示脫敏場景為例,為您展示規則的配置要點。實際使用時,請根據您的需要選擇合適脫敏場景。配置詳情請參見創建動態脫敏規則:數據開發/數據地圖展示脫敏場景。
靜態脫敏:配置詳情請參見創建靜態脫敏規則:數據集成靜態脫敏場景。
創建動態脫敏規則:數據開發/數據地圖展示脫敏場景
選擇脫敏場景。
在數據脫敏管理頁面,選擇脫敏場景為
,單擊右側+脫敏規則。新建數據脫敏規則。
在新建脫敏規則對話框中,配置脫敏規則信息。
選擇敏感字段并配置規則名稱。
參數
描述
敏感字段類型
選擇當前脫敏規則需要脫敏的字段。
支持選擇系統內置的敏感字段及在敏感數據識別中手動添加的敏感字段。手動添加敏感字段,詳情請參見敏感數據識別規則。
若您之前已創建過相同場景的脫敏規則,DataWorks會過濾掉已被選擇的敏感字段類型,避免同場景下對于同敏感字段的脫敏規則不一致。
脫敏規則名稱
默認填寫為所選的敏感字段類型,您也可自定義規則名稱。規則名稱必須唯一。
配置脫敏場景。
選擇該脫敏規則適用的脫敏場景。默認為步驟一所選的脫敏場景,您也可根據需要更改或添加多個場景。
配置脫敏方式。
DataWorks支持保留格式加密、掩蓋、HASH加密、字符替換、區間變換、取整、置空等脫敏方式,您可根據需要選擇。
保留格式加密(原假名脫敏算法)
保留格式加密脫敏會將一個值替換成一個具有相同特征的脫敏信息。脫敏后數據和脫敏前數據的格式保持一致。涉及的脫敏規則配置參數如下。
參數
說明
數據水印
數據水印可提供數據溯源能力,發生數據泄露后,可幫您定位到可能的泄露源。您可根據需求選擇是否開啟數據水印。
說明僅DataWork企業版及以上版本支持使用數據水印功能。
脫敏特征值
不同脫敏特征值的脫敏策略規則不同,即相同的待脫敏數據在不同的脫敏特征值脫敏出來的結果信息不同。若脫敏特征值相同則脫敏后的數據也是相同的。
例如,原始數據為a123:
脫敏特征值設置為0時,脫敏成b124。
脫敏特征值設置為1時,脫敏成c234。
脫敏特征值的默認值為5,可選范圍0~9。
(可選)替換字符集
當選擇的敏感字段類型的識別規則為非內置時,您需要配置替換字符集。配置替換字符集后,后續遇到字符集中的字符,即會被替換為其他相同類型的字符。
例如,敏感數據脫敏前是0~3的數字和a~d的字母組成,則脫敏后也會脫敏成在這個范圍內的數字和字母。
說明若需要脫敏的數據不符合字符集范圍則不進行脫敏。
掩蓋
掩蓋脫敏是對部分信息進行掩蓋,將對應位置上的字符用“*”替換,達到脫敏的效果。使用掩蓋方式進行脫敏時需選擇掩蓋脫敏的方式,當前DataWorks為您內置了一些掩蓋脫敏方式,也支持您自定義。
參數
說明
推薦方式
在下拉框選擇推薦的掩蓋脫敏方式,對于不同的脫敏字段可選擇的掩蓋方式不一致。
例如,只展示前1位和最后1位、只展示前3位和最后2位、只展示前3位和最后4位等,您可根據界面下拉框提示進行選擇。
自定義
自定義提供了更加靈活的設置方式,按從左至右順序配置分段是否脫敏,以及需要脫敏(或者不脫敏)的字符長度。最多可添加10個分段,必須要有且僅有1個分段是剩余位數。
例如,脫敏前3位,剩余位數不脫敏。
HASH加密
使用HASH加密進行數據脫敏時,您需配置以下脫敏規則參數。
參數
說明
數據水印
數據水印可提供數據溯源能力,發生數據泄露后,可幫您定位到可能的泄露源。您可根據需求選擇是否開啟數據水印。
說明僅DataWork企業版及以上版本支持使用數據水印功能。
加密算法
包括MD5、SHA256、SHA512、SM3。
加鹽值
設置各加密算法的鹽值。默認選中5,可填值為0~9。
說明鹽值即插入的特定字符串。在密碼學中,通過在密碼任意固定位置插入特定的字符串,讓散列后的結果和使用原始密碼的散列結果不相符,這種過程稱之為加鹽。
字符替換
字符替換的方式即是將指定位置的字符按照您選擇的替換方式進行替換。涉及的脫敏規則配置參數如下。
參數
說明
替換位置
在下拉框可選擇替換全部、替換前3位、替換后4位,同時支持您自定義替換位置。
替換位置選擇自定義時,用戶可以自定義分段,并配置每個分段如何替換字符,最多可添加10個分段,必須要有且僅有1個分段是剩余位數。
替換方式
包括隨機替換、樣本值替換、固定值替換。
隨機替換:隨機替換對應位置上的字符,替換前后字符位數不變。
樣本值替換:您需要選擇指定樣本庫,選擇后用樣本庫中的值替換對應位置上的字符。
固定值替換:您需要在替換值文本框中輸入字符(字符不限,長度1~100,不可包含空字符),輸入后用該替換值替換對應位置上的字符。
區間替換
區間變換僅適用對數值類型的數據進行脫敏。可將指定數值范圍內的數據脫敏為固定的值,可添加多個區間范圍,至少1個,至多10個。
參數
說明
原始數值范圍 [m,n)
脫敏前數據的數值范圍,有效值為大于等于0的數值,最多支持小數點后2位。
數值脫敏后數值
脫敏之后的值,有效值為大于等于0的數值,最多支持小數點后2位。
取整
參數
說明
原始數據類型
僅支持選擇數值類型。
保留小數點位數
有效值范圍為0~5,剩余部分四舍五入。例如,原始數值3.1415,保留小數點位數2位,脫敏后為3.14。
置空
置空脫敏時,對應的敏感字段置為空字符串。
驗證脫敏結果。
您可在樣本數據文本框中輸入脫敏前樣本數據(輸入字符限制0~100字符),單擊驗證,在脫敏效果中會返回脫敏后的數據。
單擊保存或保存并生效,完成脫敏規則的創建。
創建完成脫敏規則后:
動態脫敏場景下,您可設置脫敏規則生效的白名單,后續在指定時間范圍內,白名單用戶可查詢未脫敏的數據,白名單添加操作詳情請參見配置脫敏規則白名單(僅動態脫敏支持)。
剛創建完成的脫敏規則默認狀態為不生效,您需要設置狀態為生效后,脫敏規則才會在后續對應脫敏場景中被應用,設置狀態操作詳情請參見配置脫敏規則生效或失效。
創建靜態脫敏規則:數據集成靜態脫敏場景
在數據脫敏管理頁面,選擇脫敏場景為
,單擊右側+脫敏規則。新建數據脫敏規則。
在新建脫敏規則對話框中,配置規則信息。
選擇敏感數據類型并配置規則名稱。
參數
描述
敏感數據類型
選擇已有:根據需要選擇已創建的敏感數據類型(包括內置和自定義的敏感數據類型)。
新增類型:輸入敏感數據類型名稱,名稱必須唯一。
說明內置敏感數據類型包括:手機號、身份證號、銀行卡號、郵箱_內置、IP、車牌號、 郵政編碼、座機號、MAC地址、地址、姓名、公司名、民族、星座、性別、國籍。
脫敏規則名稱
默認填寫為所選的敏感數據類型,您也可自定義規則名稱。規則名稱必須唯一。
配置脫敏方式。
DataWorks支持假名、哈希和掩蓋三種脫敏方式,您可根據需要選擇。
假名
假名脫敏會將一個值替換成一個具有相同特征的脫敏信息。脫敏后數據和脫敏前數據的格式保持一致。
當選擇的敏感數據類型為內置敏感數據類型(手機號、身份證號、銀行卡號、郵箱_內置、IP、車牌號、 郵政編碼、座機號、MAC地址、地址、姓名、公司名)時,用戶需要配置安全域。
安全域:可選范圍0~9,不同安全域的脫敏策略規則不一致,即相同的待脫敏數據在不同的安全域脫敏出來的結果信息不一致。例如,原始數據為a123,安全域設置為0時,脫敏成b124,安全域設置為1時,脫敏成c234。原始數據相同時,如果安全域相同則脫敏后的數據也是相同的。
當選擇的敏感數據類型為非內置時,用戶需要配置替換字符集。
替換字符集:遇到字符集中的字符,即會被替換為其他相同類型的字符,不支持中文,若需要脫敏的數據不符合字符集范圍則不脫敏(可輸入大寫字母、小寫字母、和數字,多個字符請用英文逗號隔開),例如,敏感數據脫敏前是0~3的數字和a~d的字母組成,那么脫敏后也會脫敏成在這個范圍內的數字和字母。
哈希
可將原始數據加密成固定長度的數據。HASH脫敏方式需要選擇安全域。
安全域:可選范圍0~9,不同安全域的脫敏策略規則不一致,即相同的待脫敏數據在不同的安全域脫敏出來的結果信息不一致,如果安全域相同則脫敏后的數據也是相同的。
例如,原始數據為a123:
安全域設置為0時,脫敏成b124。
安全域設置為1時,脫敏成c234。
掩蓋
掩蓋脫敏是對部分信息進行掩蓋,將對應位置上的字符用“*”替換,達到脫敏的效果。
推薦方式:下拉框可選擇只展示前1位和最后1位、只展示前3位和最后2位、只展示前3位和最后4位。
自定義:自定義提供了更加靈活的設置方式,按從左至右順序配置分段是否脫敏,以及需要脫敏(或者不脫敏)的字符長度。最多可添加10個分段,必須要有且僅有1個分段是剩余位數。
示例一:脫敏前3位,剩余位數不脫敏。
示例二:脫敏后3位,剩余位數不脫敏。
驗證脫敏結果。
您可在樣本數據文本框中輸入脫敏前樣本數據(輸入字符限制0~100字符),單擊脫敏驗證,在脫敏效果中會返回脫敏后的數據。
單擊確定,完成脫敏規則的創建。
創建完成脫敏規則后:
剛創建完成的脫敏規則默認狀態為不生效,您需要設置狀態為生效后,脫敏規則才會在后續對應脫敏場景中被應用,設置狀態操作詳情請參見配置脫敏規則生效或失效。
創建數據集成脫敏規則后,您可以在創建實時同步單表數據任務的時候使用該脫敏規則。詳情請參見配置數據脫敏。
配置脫敏規則白名單(僅動態脫敏支持)
對于動態脫敏場景的脫敏規則,您可設置脫敏規則的白名單用戶,后續在脫敏規則生效后,白名單用戶的脫敏規則在指定時間內不生效,即可獲得未脫敏的數據。
新建白名單前,您需先將待添加至白名單的用戶添加至一個用戶組。配置用戶組,詳情請參見配置用戶組。
新增白名單的操作如下:
在數據脫敏管理頁面,單擊白名單配置。
單擊右上方的+白名單。
在新建白名單對話框中,配置相關信息。
說明Hologres引擎層脫敏、數據集成靜態脫敏場景不支持配置白名單。
設置白名單生效時間后,對于符合白名單條件的敏感數據,將在指定有效期內不進行脫敏處理。
參數配置如下。
參數
描述
敏感字段類型
僅支持選擇所選脫敏場景下的敏感字段類型。
用戶組范圍
選擇已配置的用戶組,最多可選50個用戶組。添加用戶組至白名單后,用戶組內的賬號獲取到的數據為脫敏前的原始數據。配置用戶組,詳情請參見配置用戶組。
生效時間
根據需要設置白名單的生效時間。設置后,如果不在白名單脫敏時間的區間內,該用戶在查詢該敏感信息時將會繼續脫敏。
說明設置為短期后,表示從當前時間開始到指定天數內的數據將不進行脫敏。
單擊保存,完成白名單配置。
配置脫敏規則生效或失效
在數據脫敏規則頁面,單擊對應脫敏規則列表中的狀態開關,即可設置脫敏策略的狀態為生效或失效。
設置成功后,你可對相應脫敏規則執行編輯、刪除、查詢詳情等操作。
生效的規則不允許執行刪除和編輯的操作。您需先將規則失效,失效時判斷是否有相關任務使用到該規則,請聯系安全管理員二次確認。
失效狀態下您可修改脫敏方式,但是敏感數據類型和脫敏規則名稱不可修改。
修改完成后開啟生效,配置該脫敏規則的任務可繼續脫敏。
脫敏規則應用示例
創建數據集成脫敏規則后,您可以在創建實時同步單表數據任務的時候使用該脫敏規則。詳情請參見配置數據脫敏。