本文為您介紹如何在批作業中開啟遠程Shuffle服務,從而緩解磁盤容量不足的問題,并確保作業高效穩定運行。
背景信息
在傳統的Flink批處理場景中,本地磁盤作為Shuffle數據的存儲載體,充分利用了數據本地化的優勢,顯著提升了處理效率。然而,這一方案受限于本地物理磁盤的容量,在面對超大規模數據時,往往需要同時增加Flink的計算資源和存儲資源。這一方式存在潛在的計算資源浪費,可能會為您帶來較大的成本開銷。
為了解決上述問題,我們推出了遠程Shuffle服務并于公測階段免費開放。Flink批作業在開啟遠程Shuffle服務后,Shuffle數據將存儲到高性能的Apache Celeborn集群中,作業不再受限于Flink計算節點的磁盤容量,從而增強超大規模數據的處理能力,同時保持作業的高穩定性和成本效益。
此功能目前正處于公測階段,請在生產環境下謹慎使用。如遇問題,歡迎提交工單,我們將迅速響應,提供專業協助。
遠程Shuffle服務暫時只支持新網絡架構,目前仍有部分存量工作空間尚未升級完成,您可以聯系我們在第一時間為您升級。
遠程 Shuffle 服務在公測階段目前暫未支持所有地區,已支持的地區詳見遠程Shuffle服務可用區域。若您發現作業所在地區尚未支持,請聯系我們在第一時間為您開通服務。
使用限制
僅支持非Session模式的批作業。
此功能僅實時計算Flink VVR 8.0.9及以上版本支持。
作業所在工作空間已升級新網絡架構,詳情請參見網絡架構升級。
作業所在地區已支持遠程Shuffle服務,詳見遠程Shuffle服務可用區域。
操作步驟
進入批作業參數配置入口。
登錄實時計算控制臺。
單擊目標工作空間操作列下的控制臺。
在左側導航欄上,選擇
。在作業模式下拉列表中,選擇批作業。
單擊目標作業詳情,單擊運行參數配置區域右側的編輯。
在其他配置中,增加如下代碼信息。
execution.batch.remote-shuffle.enabled: true
單擊保存。
參數保存后會在新啟動的批任務中生效。
遠程Shuffle服務可用區域
上海
烏蘭察布
新加坡
若您的作業所在地區尚未開通遠程Shuffle服務,請即刻聯系我們開通服務。