JOIN算法通常用于數據預處理階段,通過在一個或多個字段上匹配記錄,將來自不同數據源的相關信息整合為一個數據表。這種操作類似于SQL中的JOIN語句,旨在確保合并后的數據在完整性和一致性方面準確無誤,為后續的訓練和分析提供可靠的數據基礎。
配置組件
在Designer工作流頁面添加JOIN組件,并在界面右側配置相關參數:
參數 | 描述 |
連接類型 | 支持左連接、內連接、右連接和全連接。 |
MapJoin優化 | 將小表加載到內存中,提高運行速度。取值:
|
關聯條件 | 僅支持等式,可手動添加或刪除關聯條件。 |
選擇左表輸出字段列 | 選擇左表輸出字段列。 |
選擇右表輸出字段列 | 選擇右表輸出字段列。 |
文檔內容是否對您有幫助?