配置Amazon S3輸入組件后,可以讀取Amazon S3數據源中的數據至Dataphin,進行數據集成與數據開發。本文為您介紹如何配置Amazon S3輸入組件。
前提條件
已創建Amazon S3數據源。具體操作,請參見新建Amazon S3數據源。
進行Amazon S3輸入組件屬性配置的賬號,需具備該數據源的同步讀權限。如果沒有權限,則需要申請數據源權限。具體操作,請參見申請數據源權限。
操作步驟
參見離線管道組件開發入口,進入離線單條管道腳本開發頁面。
按照以下操作指引,進入Amazon S3輸入配置對話框。
單擊組件庫->單擊輸入->拖動Amazon S3輸入組件至畫布->單擊配置圖標。
在Amazon S3輸入配置對話框中,配置參數。
參數
說明
步驟名稱
Amazon S3輸入組件的名稱。Dataphin自動生成步驟名稱,您也可以根據業務場景修改。命名規則如下:
只能包含漢字、字母、下劃線(_)、數字。
不能超過64個字符。
數據源
下拉列表中展示Dataphin中所有Amazon S3類型的數據源。對于您沒有同步讀權限的數據源,您可以單擊數據源后的申請,申請對應數據源的讀取權限。申請數據源讀取權限的具體操作,請參見申請數據源權限。
如果您還沒有Amazon S3類型的數據源,單擊新建,創建數據源。具體操作,請參見新建Amazon S3數據源。
Object前綴
對象是Amazon S3存儲數據的基本單元。也被稱為Amazon S3的文件。對象由元信息(Object Meta)、用戶數據(Data)和文件名(Key)組成。對象由存儲空間內部唯一的Key來標識。輸入組件支持多Object配置,可以單擊+添加Object前綴,進行添加。
若數據源中配置了目錄,則此處會自動展示數據源中配置的目錄,可進行修改,但需確認是否有其他目錄的權限,否則任務會失敗。
文件類型
支持Text、CSV、xls和xlsx。不同文件類型,所需配置參數不同。
Text、CSV文件類型所需配置參數,請參見Text和CSV文件類型。
xls和xlsx文件類型所需配置參數,請參見xls和xlsx文件類型。
文件編碼
支持UTF-8和GBK編碼。
空值轉換
默認為空,可指定任意字符串轉換為NULL值。
壓縮格式
支持zip、gzip、bzip2、lzo、lzo_deflate壓縮格式。
輸出字段
為您展示輸出字段。 您可以手動添加輸出字段:
單擊批量添加。
以JSON格式批量配置,例如,
"index":3,"name":"user_id","type":"String"
表示把文件中的第4列引入,字段名為user_id,字段類型為String以TEXT格式批量配置。
行分隔符用于分隔每個字段的信息,默認為換行符(\n),可支持換行符(\n)、分號(;)、點(.)。
列分隔符用于分隔字段名與字段類型,默認英文逗號(,)。
單擊新建輸出字段,根據頁面提示填寫來源序號、字段及選擇類型。Text和CSV文件類型的來源序號必須填寫該字段所在列的數字序號,序號從0開始。
同時您也可以對已添加的字段執行如下操作:
單擊拖動字段旁的圖標,可調換字段所處位置。
單擊操作列下的圖標,編輯已有的字段。
單擊操作列下的圖標,刪除已有的字段。
Text和CSV文件類型
參數
描述
列分隔符
根據實際存儲的情況填寫文件內列之間的分隔符,如果不填寫默認為英文逗號(,)。
行分隔符
根據實際存儲的情況填寫文件內行之間的分隔符,如果不填寫默認為換行符(\n)。
首行內容類型
若首行為字段名稱,可選擇字段名稱,否則請選擇數據內容。
xls和xlsx文件類型
參數
描述
sheet選擇
可按名稱或索引選擇要讀取的sheet,如讀取多個sheet需保持數據格式一致。
sheet名稱
讀取多張sheet以英文逗號(,)分隔,也可輸入
*
讀取所有sheet。重要*
和英文逗號(,)不可混用。數據內容起始行
默認為1,從第一行開始為數據內容。若需忽略前N行,請則將數據內容起始行設置為N+1。
數據內容結束行
非必填,如不指定,則默認讀到有數據的最后一行。
重要內容結束行需(>=)大于等于起始行,否則將導致任務報錯。
導出sheet名
默認不導出,如選擇導出,則會在輸出字段中加入一個來源sheet字段。
單擊確認,完成Amazon S3輸入組件的屬性配置。