GBase 8a輸入組件用于讀取GBase 8a數據源的數據。同步GBase 8a數據源的數據至其他數據源的場景中,您需要先配置GBase 8a輸入組件讀取的數據源,再配置數據同步的目標數據源。本文為您介紹如何配置GBase 8a輸入組件。
前提條件
已創建GBase 8a數據源,如何創建,請參見創建GBase 8a數據源。
進行GBase 8a輸入組件屬性配置的賬號,需具備該數據源的同步讀權限。如果沒有權限,則需要申請數據源權限,詳情請參見申請數據源權限。
操作步驟
請參見離線管道組件開發入口,進入離線管道腳本的開發頁面。
按照以下操作指引,進入GBase 8a輸入配置對話框。
單擊組件庫->單擊輸入->拖動GBase 8a輸入組件至畫布->單擊配置圖標。
在GBase 8a輸入配置對話框中,配置參數。
參數
描述
步驟名稱
即GBase 8a輸入組件的名稱。Dataphin自動生成步驟名稱,您也可以根據業務場景修改。命名規則如下:
只能包含漢字、字母、下劃線(_)、數字。
不能超過64個字符。
數據源
在數據源下拉列表中,展示當前Dataphin中所有GBase 8a類型的數據源,包括您已擁有同步讀權限的數據源和沒有同步讀權限的數據源。
對于您沒有同步讀權限的數據源,您可以申請對應數據源的讀取權限。申請數據源讀取權限的具體操作,請參見申請數據源權限。
如果您還沒有GBase 8a類型的數據源,單擊新建,創建數據源。詳情請參見創建GBase 8a數據源。
來源表量
選擇來源表量。來源表量包括單表和多表:
單表:適用于將一個表的業務數據同步至一個目標表的場景。
多表:適用于將多個表的業務數據同步至同一個目標表的場景。多個表的數據寫入同一個數據表時,使用union算法。
更多union說明,請參見交集、并集和補集。
表
選擇來源表:
如果來源表量選擇了單表,則直接選擇輸入的表。
如果來源表量選擇了多表,則執行以下操作添加表。
在輸入框中,輸入表的表達式,篩選具有相同結構的表。
系統支持枚舉形式、類正則形式及兩者混合形式,例如,
table_[001-100];table_102。
單擊圖標。
在確認匹配詳情對話框中,選擇匹配的表。
單擊確認。
切分鍵
您可以將源數據表中字段類型為整型的某一列作為切分鍵,推薦使用主鍵或有索引的列作為切分鍵。讀取數據時,根據配置的切分鍵字段進行數據分片,實現并發讀取,可以提升數據同步效率。
批量讀取條數
一次性讀取數據的條數。在從源數據庫讀取數據時,可以配置一個特定的批量讀取條數(如1024條記錄),而不是一條一條地讀取,以減少與數據源之間的交互次數,提高I/O效率,并降低網絡延遲。
輸入過濾
配置抽取數據的篩選條件,配置說明如下:
配置固定值,抽取對應的數據,例如
ds=20210101
。配置變量參數,抽取某一部分數據,例如
ds=${bizdate}
。
輸出字段
輸出字段區域展示了已選中表及篩選條件命中的所有字段。如果不需要將某些字段輸出至下游組件,則您可以刪除對應的字段:
單個刪除字段場景:如果需要刪除少量的字段,則可以單擊操作列下的圖標,刪除多余的字段。
批量刪除字段場景:如果需要刪除大批量字段,則可以單擊字段管理,在字段管理對話框選擇多個字段后,單擊左移動圖標,將已選的輸入字段移入到未選的輸入字段并單擊確定,完成字段的批量刪除。
單擊確認,完成GBase 8a輸入組件的屬性配置。
- 本页导读 (0)
- 前提條件
- 操作步驟