兩表并集
本文介紹兩表并集算子的使用方法及注意事項(xiàng)。
用途
兩表并集算子可以將兩張數(shù)據(jù)表按照設(shè)置的合并條件求取并集。
適用場(chǎng)景
計(jì)算鏈路 | 計(jì)算引擎 | 是否支持 |
離線 | MaxCompute | 是 |
Hive | 是 | |
HiveStorage | 是 | |
RDS/MySQL | 是 | |
Spark | 是 |
使用說(shuō)明
來(lái)源節(jié)點(diǎn)
兩表并集算子必須指定兩個(gè)來(lái)源節(jié)點(diǎn)(又稱為輸入節(jié)點(diǎn),每個(gè)來(lái)源節(jié)點(diǎn)可視為一張表),以求取這兩個(gè)來(lái)源節(jié)點(diǎn)的并集。
合并條件
可以分別指定兩個(gè)來(lái)源節(jié)點(diǎn)的1個(gè)或者多個(gè)字段作為合并條件的字段。合并的結(jié)果中將包含這兩個(gè)來(lái)源節(jié)點(diǎn)中的指定合并字段的所有記錄,示意圖如下所示。
示例如下所示,假設(shè)兩個(gè)輸入節(jié)點(diǎn)分別為A和B,設(shè)置兩個(gè)合并條件為"A.ID <=> B.ID"、 "A.NAME <=> B.NAME",則并集運(yùn)算結(jié)果、去重合并后的并集運(yùn)算結(jié)果如下圖右側(cè)所示。
快速合并
系統(tǒng)提供快速填充合并條件的輔助工具,點(diǎn)擊快速合并按鈕后,系統(tǒng)自動(dòng)將兩個(gè)輸入節(jié)點(diǎn)相同的字段作為合并字段填寫到合并字段中。
輸出字段
合并條件中的字段列表將自動(dòng)作為當(dāng)前節(jié)點(diǎn)的輸出字段,輸出到下游節(jié)點(diǎn)。
去重合并
兩表并集算子默認(rèn)不做去重合并,輸出的數(shù)據(jù)包含來(lái)源節(jié)點(diǎn)的所有記錄。勾選去重合并后,節(jié)點(diǎn)的輸出數(shù)據(jù)將會(huì)過(guò)濾重復(fù)的記錄。去重合并的效果示例參考合并條件中的示意圖。