Flink SQL Batch節點使您能夠使用標準SQL語句定義和執行數據處理任務,適用于大數據集的分析與轉換,包括數據清洗和聚合。該節點支持可視化配置,為您提供高效且靈活的大規模數據批處理方案。在Flink SQL Batch節點中,您可以使用類SQL語句完成大規模數據加工的批處理。本文將介紹如何在Flink SQL Batch節點中配置和使用SQL語句來完成數據的批處理。
前提條件
已創建工作空間,并在管理中心綁定實時計算Flink版計算資源。
已創建Flink SQL Batch節點。
步驟一:Flink SQL Batch節點開發
在Flink SQL Batch節點編輯頁面,執行如下開發操作,完成節點任務的開發。
開發SQL代碼
在SQL編輯區域開發任務代碼,您可在代碼中使用${變量名}的方式定義變量,并在節點編輯頁面右側調度配置的調度參數中為該變量賦值。實現調度場景下代碼的動態傳參,調度參數使用詳情,示例如下。
--創建源表datagen_source。
CREATE TEMPORARY TABLE datagen_source_${var}(
name VARCHAR
) WITH (
'connector' = 'datagen'
);
--創建結果表blackhole_sink。
CREATE TEMPORARY TABLE blackhole_sink_${var}(
name VARCHAR
) WITH (
'connector' = 'blackhole'
);
--將源表數據插入到結果表。
INSERT INTO blackhole_sink_${var}
SELECT
name
FROM datagen_source_${var};
該示例參數bizdate
對應的參數值為$[yyyymmdd]
,通過設置該參數可以實現對每日新增數據的批量同步處理。
步驟二:Flink SQL Batch節點配置
您可根據業務情況,參照下面的參數描述信息配置Flink SQL Streaming節點任務。
配置調度信息
您可在編輯頁面右側調度配置框的Flink資源信息中配置如下參數信息。
參數 | 描述 |
Flink 集群 | 在管理中心綁定的全托管Flink計算資源名稱。 |
Flink 引擎版本 | 您可根據實際情況選擇引擎版本。 |
調度資源組 | 選擇與Flink網絡連通的Serverless資源組。 |
Job Manager CPU | 根據Flink的最佳實踐,JobManager至少需要0.5核CPU和2GiB內存來確保穩定運行,建議配置為1核CPU和4 GiB內存,最大不超過16核CPU。具體配置應根據集群規模和作業復雜度調整。 |
Job Manager Memory | JobManager的內存配置影響其處理調度和管理任務的能力,推薦配置范圍是2 GiB到64 GiB,以確保穩定高效的運行。具體大小應根據集群規模和作業需求調整。 |
Task Manager CPU | TaskManager的CPU資源配置影響其任務處理能力。根據Flink的最佳實踐,建議配置至少0.5核CPU和2 GiB內存,推薦1核CPU和4 GiB內存,最大不超過16核CPU。具體配置應依據實際需求調整。 |
Task Manager Memory | TaskManager的內存配置決定了其處理任務的數據量和性能。為了確保任務穩定執行和高效處理,內存大小至少應為2 GiB,最大可設置為64 GiB。 |
并發度 | 決定了Flink作業中任務的并行執行數量,較高的并發度可以提高處理速度和資源利用率,您需要根據集群資源和作業特性進行合理設置。 |
最大Slot數 | 代表了Task Manager上可以分配給任務的固定大小的資源。每個Slot可以運行一個pipeline的一個task或operator的一個實例。您可以根據實際資源情況調整最大Slot數。 |
每個TaskManager Slot數 | 每個TaskManager的Slot數決定了它可以并行執行的任務數量,您可通過調整Slot配置優化資源利用和作業的并行處理能力。 |
如需定期執行節點任務,請根據業務需求配置調度信息。
完成任務配置后,單擊保存節點任務。
步驟三:Flink SQL Batch節點發布與運維
節點任務配置完成后,需對節點進行發布。
任務發布后,您可以單擊發布到生產環境下方的去運維,在運維中心查看周期任務的運行情況。詳情請參見運維中心入門。