數據加工
本文為您介紹數據合并、清洗加工、聚合、轉置、關聯等數據加工操作。
前提條件
已完成數據輸入的配置,請參見輸入數據。
合并
合并用于將兩張表合并為一張表,合并的數據在行上擴展。
合并節點用于將數據輸入1節點和數據輸入2節點中,名稱相同的字段進行合并。
從左側的節點操作區,拖拽合并至畫布區。
連接需要合并的節點。
配置合并節點。
此時,合并節點中的字段為數據輸入1和數據輸入2中名稱相同的字段。
查看數據詳情。
支持查看數據探查、數據詳情和字段列表。
數據探查,可以了解表中數據的:
基本特征(類型、格式)
質量:正常值、空值 | 異常值
單個字段下,數值的分布、類型、格式
聯動模式下的數據關系、值分布規律
具體操作請參見數據探查。
數據詳情:可以展示兩張表合并后的列和數據。主表(數據輸入1)中的字段和數據將全部展示,次表(數據輸入2)中相同的字段對應的數據將在行上進行擴展,不同的字段與數據不會展示。
字段列表:展示主表數據輸入1的字段。
清洗加工
去掉數據表中不需要的列和行,并新增需要的列和行。
從左側的節點操作區,拖拽清洗加工至畫布區。
連接需要清洗加工的節點。
在清洗加工節點配置區域,進行以下配置。
新增計算字段
您可以按照圖示步驟進入新增計算字段配置界面。
在新增字段-公式函數編輯頁,輸入①新建字段名稱和②字段表達式,選擇③字段類型,單擊④確定后保存配置。
更多的計算字段示例請參見數據集的新建計算字段。
新增窗口函數
您可以按照圖示步驟進入新增窗口函數配置界面。
在新增字段-窗口函數編輯頁輸入①新建字段名稱和②字段表達式,選擇③字段類型,進行④窗口配置,單擊⑤確定后保存配置。
說明字段表達式只需輸入window_fuc(args)部分,不需要輸入over及之后的sql代碼,否則會報錯。
其中,窗口配置需要配置以下內容:①分組字段
默認選擇不分組。
說明不分組表示將全部數據當作一個分組進行計算。
若設置了分組字段,則將在每個分組內進行計算。
支持選擇多個分組字段。
您也可以自定義設置分組字段。
②排序
默認選擇不排序,您也可選擇字段,進行自定義排序設置。
說明設置排序后,將在分組內根據排序字段進行排序。
排序字段最多設置5個。
若存在排序函數、cume_dist(),則必須有排序字段。
③窗口范圍
默認不設置范圍,您可以選擇按行選取或按值選取。窗口范圍選取后,參與計算的數據將在窗口范圍內進行,不設置范圍則在整個分組內計算。
窗口起點支持選擇分區起始元素、當前元素、前置偏移n。
分區起始元素:該分組內的第1行/值數據。
當前元素:當前行/值。
前置偏移n:當前行/值向前偏移n行/值。
窗口終點支持選擇當前元素、分區結束元素、后置偏移n。
當前元素:當前行/值。
分區結束元素:該分組的最后1行/值數據。
后置偏移n:當前行向后偏移n行/值。
說明若存在排序函數和cume_dist()、ntile()、lead()、lag(),窗口范圍不支“按行選取”和“按值選取”。
若排序字段中存在日期時間、時間、文本類型,不支持按值選取的“前置偏移n”和“后置偏移n”。
若窗口范圍為按值選取,則必須有1個排序字段(有且只能有1個)。
新增分組賦值
您可以按照圖示步驟進入新增分組賦值配置界面。
在新增字段-分組賦值編輯頁輸入①新建字段名稱,選擇②分組字段,進行③分組設置,單擊④確定后保存配置。
保存配置后,數據集中增加1個維度字段,按照配置將分組名稱填入該列中。更多的分組維度示例請參見分組維度。
合并字段
說明僅字段類型為文本時,才支持此操作。
篩選
篩選方式支持枚舉篩選、條件篩選、和字段對比。
更多的篩選示例請參見儀表板的復合查詢示例展示。
修改字段類型
在字段列表視圖下,修改字段類型。
說明轉換為日期字段時,支持以下3種日期類型:
日期:僅日期格式,例如,yyyy-MM-dd。
日期時間:日期+時間格式;例如,yyyy-MM-dd HH:mm:ss。
時間:僅時間格式,例如,HH:mm:ss。
您也可以自定義日期格式。
值替換
在字段列表視圖下,修改字段的值。
說明僅字段類型為文本時,才支持此操作。
拆分字段
在字段列表視圖下,根據字段值進行拆分字段。
說明僅字段類型為文本時,才支持此操作。
重命名字段
鼠標懸浮至目標字段上,單擊右側的圖標(①),或者雙擊目標字段名稱(②),均可以重命名字段。
編輯字段
復制字段
針對已有字段,復制一個字段表達式和字段類型相同的字段,方便您快速創建同類型字段,提高數據準備的效率。
刪除字段
針對多余字段,完成數據的清洗加工。
查看數據詳情。
支持查看數據探查、數據詳情和字段列表。
聚合
根據選定的維度,在指定的度量上做數據匯總或平均。
從左側的節點操作區,拖拽聚合至畫布區。
連接需要聚合節點。
在聚合節點配置區域,按照下圖指引,配置分組字段和匯總字段。
查看數據詳情。
支持查看數據探查、數據詳情和字段列表。
轉置
實現數據表的行列轉置。
從左側的節點操作區,拖拽轉置至畫布區。
選擇轉置類型并進行轉置配置。支持選擇行轉列或列轉行。
行轉列
拖入需要轉置的列,會自動顯示該列的枚舉值,默認全部勾選。
說明最多可添加1個需要轉置的列。
拖入填充列。
轉置效果。
轉置前
轉置后
列轉行
拖入需要轉置的列。
說明最多可添加10個需要轉置的列。
轉置效果。
轉置前
轉置后
查看數據詳情。
支持查看數據探查、數據詳情和字段列表。
關聯
將兩張表關聯為一張寬表,并進行需要的數據處理,關聯的數據在列上擴展。
從左側的節點操作區,拖拽關聯至畫布區。
連接需要關聯的節點。
按照下圖指引,配置關聯節點。
建立關聯關系后,選擇兩表要關聯的字段,可添加多個關聯字段。
提供4種關聯類型:內關聯、左關聯、右關聯、外關聯。
內關聯:使用內關聯時,生成的表將包含與兩個表均匹配的值。
左關聯:使用左關聯時,生成的表將包含左側表中的所有值以及右側表中的對應匹配項。當左側表中的值在右側表中沒有對應匹配項時,將在數據視圖中看到null值。
右關聯:使用右關聯時,生成的表將包含右側表中的所有值以及左側表中的對應匹配項。當右側表中的值在左側表中沒有對應匹配項時,將在數據視圖中看到null值。
外關聯:使用完全外部關聯時,生成的表將包含兩個表中的所有值。當任一表中的值在另一個表中沒有匹配項時,將在數據視圖中看到null值。
兩個關聯的表中如果有相同的字段,將自動對字段進行重命名。
查看數據詳情。
支持查看數據探查、數據詳情和字段列表。
數據加工完成后,您可以將加工后的數據導出。請參見輸出數據。