通過樣本庫識別
DataWorks支持將您提供的樣本文件生成樣本庫,后續(xù)可以將樣本庫配置為數(shù)據(jù)識別規(guī)則用來識別數(shù)據(jù)。當需要識別的目標數(shù)據(jù)包含樣本庫中的數(shù)據(jù)時,則會命中該識別規(guī)則。該功能通常用于識別可以使用枚舉值羅列的數(shù)據(jù),例如,員工姓名、用戶地址等。本文為您介紹如何創(chuàng)建并管理樣本庫。
使用限制
DataWorks僅支持上傳大小不超過500KB,UTF-8
格式的.txt
文本文件做為樣本庫文件,并且樣本文件中的每個數(shù)據(jù)占用一行。
一個數(shù)據(jù)識別規(guī)則僅支持識別一種類型的數(shù)據(jù),因此,建議您的每個樣本庫中存放同類型的數(shù)據(jù)。如果您需要使用樣本庫方式識別多個類型的數(shù)據(jù),則需要配置多個樣本庫。例如,您需要識別員工姓名、家庭住址,則需要配置姓名樣本庫及家庭住址樣本庫。
創(chuàng)建樣本庫
進入數(shù)據(jù)保護傘。
登錄DataWorks控制臺,切換至目標地域后,單擊左側(cè)導航欄的 ,在下拉框中選擇對應工作空間后單擊進入數(shù)據(jù)開發(fā)。
單擊左上方的圖標,選擇
,單擊立即體驗,進入數(shù)據(jù)保護傘。說明若阿里云主賬號已授權(quán),則直接進入數(shù)據(jù)保護傘的首頁。
若阿里云主賬號未授權(quán),則進入數(shù)據(jù)保護傘的授權(quán)頁面。授權(quán)后才可使用保護傘的相關功能。
在左側(cè)導航欄單擊
,進入敏感數(shù)據(jù)識別頁面。新增樣本庫。
在數(shù)據(jù)樣本管理頁簽單擊新建樣本。
在新增樣本對話框,配置樣本庫名稱并上傳樣本文件。
DataWorks僅支持上傳大小不超過500KB,
UTF-8
格式的.txt
文本文件做為樣本庫文件,并且樣本文件中的每個數(shù)據(jù)占用一行。說明一個數(shù)據(jù)識別規(guī)則僅支持識別一種類型的數(shù)據(jù),因此,建議您的每個樣本庫中存放同類型的數(shù)據(jù)。如果您需要使用樣本庫方式識別多個類型的數(shù)據(jù),則需要配置多個樣本庫。例如,您需要識別員工姓名、家庭住址,則需要配置姓名樣本庫及家庭住址樣本庫。
單擊保存,完成樣本庫創(chuàng)建。
成功創(chuàng)建樣本庫后,您可以將該樣本庫配置為數(shù)據(jù)識別規(guī)則,當需要識別的目標數(shù)據(jù)包含樣本庫中的數(shù)據(jù)時,則命中該識別規(guī)則。在數(shù)據(jù)識別規(guī)則中使用樣本庫,詳情請參見配置數(shù)據(jù)識別規(guī)則并執(zhí)行識別任務。
管理樣本庫
在數(shù)據(jù)樣本管理頁面,您還可以對已創(chuàng)建的樣本庫執(zhí)行如下管理操作:
查看樣本庫列表:您可查看所有已創(chuàng)建樣本庫包含的樣本個數(shù)及關聯(lián)的數(shù)據(jù)識別規(guī)則。單擊目標樣本庫操作列的圖標,即可查看該樣本庫的數(shù)據(jù)詳情。
修改樣本庫文件:單擊目標樣本庫操作列的圖標,即可更換樣本庫已有的樣本文件。
刪除樣本庫:單擊目標樣本庫操作列的圖標,即可刪除當前樣本庫。
說明如果目標樣本庫已被數(shù)據(jù)識別規(guī)則引用,您可以在樣本庫列表查看該樣本庫關聯(lián)的數(shù)據(jù)識別規(guī)則,并在數(shù)據(jù)識別規(guī)則的配置頁面取消引用該樣本庫,取消引用后該樣本庫才能被刪除。配置數(shù)據(jù)識別規(guī)則,詳情請參見配置數(shù)據(jù)識別規(guī)則并執(zhí)行識別任務。