離線物理表可幫助您統一配置與管理計算任務開發過程中用到的離線物理表,提升開發效率。本文為您介紹如何新建離線物理表。
使用限制
若您未購買數據標準模塊,不支持設置表中的數據標準字段。
若您未購買資產安全模塊,不支持設置表中的數據分級、數據分類字段。
步驟一:離線物理表
在Dataphin首頁,單擊頂部菜單欄研發。默認進入數據開發頁面。
按照以下操作指引,進入新建物理表對話框。
選擇項目(Dev-Prod 模式需要選擇環境)->單擊表管理->單擊圖標-〉選擇離線物理表。
在新建物理表對話框中,配置參數。
參數
描述
表名稱
命名規則如下:
僅允許字母、數字、下劃線(_),最多128個字符。
目錄
默認選擇離線物理表。同時,您也可以在表管理頁面創建目標文件夾后,選擇該目標文件夾為離線物理表的目錄。
說明創建離線物理表文件夾類型需選擇離線。
主題域
選擇表所歸屬的主題域。若未可選主題域,您可以進行創建。請參見創建主題域,
描述
填寫簡單的描述,1000個字符以內。
存儲類型
支持內部表和外部表存儲類型。
內部表:由自身管理的表,存儲在計算引擎中。
外部表:外部存儲系統的表,如HDFS。創建外部表需填寫外部存儲地址location。最多512個字符。
說明外部表默認的存儲設置為
stored as textfile
, 如需修改, 新建完成后可單擊編輯DDL直接修改建表的SQL語句。
生命周期
MaxCompute計算引擎內部表可配置生命周期。從最后一次更新的時間起算,在經過指定的時間后沒有變動,則該內部表將被MaxCompute自動回收。默認為36500, 即永久保留數據。若需配置存儲周期至少為1天。
單擊確定。
步驟二:配置物理表字段信息
在字段列表配置頁面配置當前物理表的表字段、數據類型、數據分類等結構信息。
區域
描述
①字段列表操作
②字段列表
字段列表為您展示字段的序號、字段名稱、數據類型、字段說明、字段標準、數據分類、數據分級等字段的詳細信息。
序號:表字段序號。每新增1個字段,自增+1。
字段名稱:表字段名稱。您可輸入字段名稱或中文關鍵詞,將自動匹配標準預置的字段名。
數據類型:支持string、bigint、double、timestamp、decimal、文本、數值、日期時間及其他數據類型。
字段說明:表字段說明信息,512個字符以內。
字段標準:選擇字段的字段標準。如需創建標準,請參見新建及管理數據標準。
數據分類:選擇字段的數據分類。如需創建數據分類,請參見新建數據分類。
數據分級:選擇數據分類后,系統將自動識別數據級別。
同時您可以在操作列下對字段進行刪除操作。
說明字段刪除后不可撤銷。
③批量操作
您可以批量選擇表字段,進行以下操作。
刪除:單擊圖標,批量刪除已經選中的數據字段。
詞根命名:單擊圖標,系統將對字段的說明內容進行分詞并匹配已經創建的詞根,進行字段名稱推薦。您可以在詞根命名對話框中,將選中字段的名稱替換為修改后的值。如下圖所示:
說明若推薦的字段名稱均不滿足需求,您可以在修復后字段名稱輸入框中進行修改。
單擊重置將重置修改后字段名稱為系統的命中詞根。
字段標準:單擊圖標,系統將根據字段名稱進行字段標準推薦。您可以在字段標準對話框中,將字段設置為推薦的字段標準。
在離線物理表開發頁面底部單擊提交。
在提交對話框中,您可查看到所生成的建表語句并進行檢查。如下圖所示:
確認無誤后,單擊確定并提交。
從表引入
在從表引入對話框中,選擇引入字段的所在來源表并勾選所需引入字段,并單擊添加進行引入。
從建表語句引入
在從建表語句引入對話框中,按照下圖操作指引,輸入建表語句后單擊解析SQL,在解析出的字段中勾選所需引入的字段,并單擊添加進行引入。
添加字段
添加字段方式支持添加數據字段、分區字段、快捷添加日期分區字段類型。按照下圖操作指引,單擊所需的字段類型后,并在字段區域填寫字段名稱、數據類型和字段說明信息。
參數
描述
字段名稱
您可輸入字段名稱或中文關鍵詞,將自動匹配標準預置的字段名。支持128個字符以內的數字、字母和下劃線(_)。
數據類型
選擇表字段數據類型。支持類型如下:
常用:string、bigint、double、datetime、timestamp、decimal。
文本:varchar、char。
數值:int、smaIlint、tinyint、float。
時間:date。MaxCompute計算引擎支持datetime。
其他:boolean、binary。
字段說明
填寫字段描述信息。
字段標準
選擇字段的字段標準。如需創建標準,請參見新建及管理數據標準。
數據分類
選擇字段的數據分類。如需創建分類,請參見新建數據分類。
數據分級
選擇數據分類后,系統將自動識別數據級別。
刪除
您可以在操作列下對字段進行刪除操作。
說明字段刪除后不可撤銷。
步驟四:導入數據(可選)
提交離線物理表后,您可導入數據至離線物理表。
單擊導入數據按鈕,進入導入數據對話框。
在導入數據對話框,基礎配置步驟中上傳數據和配置導入參數。
參數
描述
上傳文件
單擊選擇文件,上傳需導入的數據文件。僅支持.txt、.csv類型的文件,文件不超過10MB。
分隔符
數據的分隔符,支持逗號(,)、水平制表符(\t)、豎劃線(|)、斜線(/)。也可以輸入指定其他分隔符。
字符集編碼
選擇上傳的數據文件字符集編碼。支持解析utf-8(無BOM)、utf-8(有BOM)、gbk、big5、gb2312、ascii、utf-16字符集。
首行為標題
根據上傳的數據文件選擇首行是否為標題。
目標分區
如果表為分區表,需輸入導入數據的目標分區名稱。
單擊下一步。
在導入數據步驟中,配置數據表字段的映射關系。
映射關系:
同行映射:即按相同行數對應進行綁定為映射關系。
同名映射:即按相同名稱對應進行綁定為映射關系。
導入文件數據列:支持設置為數據列、空值NULL或固定值。
單擊開始導入,即可導入數據到表中。