本文介紹兩表交集算子的使用方法及注意事項。
用途
兩表交集算子可以將兩張數據表按照設置的交集條件求取交集。
適用場景
計算鏈路 | 計算引擎 | 是否支持 |
離線 | MaxCompute | 是 |
Hive | 是 | |
HiveStorage | 是 | |
RDS/MySQL | 是 | |
Spark | 是 |
使用說明
來源節點
兩表交集算子必須指定兩個來源節點(又稱為輸入節點,每個來源節點可視為一張表),以求取這兩個來源節點的交集。
交集條件
可以分別指定兩個來源節點的1個或者多個字段作為交集條件的字段,并設置這些字段的映射關系。兩個來源節點的原始數據中滿足這些映射關系的數據即為二者的交集,如下示意圖所示。
示例如下所示,假設兩個輸入節點分別為A和B,設置交集條件為A.ID=B.USER_ID,交集運算結果如下圖右側所示。
輸出字段
配置當前節點輸出到下游節點的字段列表,默認為兩個來源節點的全部字段,可按需刪減。
說明
如果兩個來源節點存在相同的字段code,且被同時選中作為輸出字段,系統會自動將后一個字段code進行重新命名。
文檔內容是否對您有幫助?