管理數據流動任務
本文介紹如何在文件存儲控制臺創建、管理CPFS智算版文件系統的數據流動任務及查看任務失敗原因。
背景信息
通過控制臺創建的數據流動任務為批式任務,僅能一次性導入或導出一個目錄中的所有文件至另一個目錄,無法實現單文件粒度的持續性流動。如果您需要實現單文件粒度的持續性流動,則需通過流式任務的OpenAPI進行操作。具體操作,請參見數據流動流式任務最佳實踐。
前提條件
創建任務
登錄文件存儲控制臺。
在左側導航欄,選擇文件系統>文件系統列表。
在頂部菜單欄,選擇地域。
在文件系統列表頁面,單擊目標CPFS智算版文件系統名稱。
在文件系統詳情頁面,單擊數據流動。
在數據流動頁面,找到目標數據流動,單擊任務管理。
在任務管理面板,單擊創建任務。
在創建任務面板,您可以創建不同類型的任務并配置任務詳情。
導入數據
Symlink類型的文件導入到CPFS后,會轉變為包含數據的普通文件,并丟失Symlink信息。
如果OSS Bucket存在多個版本,則只復制最新的版本。
不支持長度大于255字節的文件名或子目錄名。
當文件名和文件子目錄發生沖突時,在CPFS文件系統中會出現對象沖突的情況,只能確保其中一個操作成功,而另一個則會失敗。
配置項
說明
導入數據類型
支持數據+元數據類型。表示同時導入文件的數據塊及元數據。
導入文件
選擇數據流動任務執行的目錄或文件列表。必須是OSS Object Prefix內的相對路徑,且以正斜線(/)開頭和結尾。
說明如果創建數據流動時配置的CPFS路徑不存在,您可以選中如果您當前創建的CPFS目錄不存在,系統將為您自動創建,以防導入數據失敗。
沖突策略
當CPFS智算版文件系統與OSS Bucket存在同名文件時的處理策略。
跳過同名文件(缺省):忽略同名文件不進行同步。
保持最新:同名文件比較更新時間(即mtime),保持更新的版本。OSS采用修改時間,CPFS采用修改時間。
覆蓋同名文件:將同名文件覆蓋為OSS端版本。選中將當前源端文件覆蓋目標端已存在的同名文件,請確保您已備份重要數據。
導出數據
源端OSS Bucket已開啟版本控制。在數據流動的使用過程中,不能暫停版本控制,否則執行導出任務時會報錯。更多信息,請參見版本控制介紹。
Symlink類型的文件在同步到OSS后,不會同步Symlink所指向的文件,而是會變成一個普通的無數據空白對象。
Hardlink類型的文件僅作為普通文件同步到OSS。
不支持Socket、Device、Pipe類型的文件導出到OSS Bucket。
不支持長度大于1023字符的目錄路徑。
CPFS智算版會將File Modification timestamps屬性導出到OSS Bucket的自定義元數據中,其命名為
x-oss-meta-alihbr-sync-mtime
,不能刪除或修改,否則文件系統中的File Modification timestamps屬性會錯誤。
配置項
說明
導出數據類型
支持數據+元數據類型。表示同時導出文件的數據塊及元數據。
導出文件
選擇數據流動任務執行的目錄或者文件列表。必須是OSS Object Prefix內的相對路徑,且以正斜線(/)開頭和結尾。
沖突策略
當CPFS智算版文件系統與OSS Bucket存在同名文件時的處理策略。
跳過同名文件(缺省):忽略同名文件不進行同步。
保持最新:同名文件比較更新時間(即mtime),保持更新的版本。OSS采用修改時間,CPFS采用修改時間。
覆蓋同名文件:將同名文件覆蓋為CPFS端版本。選中將當前源端文件覆蓋目標端已存在的同名文件,請確保您已備份重要數據。
單擊確定。
取消任務
取消運行中的數據流動任務。
在數據流動頁簽,找到目標數據流動,單擊任務管理。
在任務管理面板,找到目標任務,單擊取消。
確認待取消的任務,單擊確定。
復制任務
您可以通過復制任務重復執行之前已經執行過的任務。
在數據流動頁簽,找到目標數據流動,單擊任務管理。
在任務管理面板,找到目標任務,選擇圖標 > 復制。
確認待復制的任務,單擊確定。
查看任務失敗原因
當數據流動任務運行失敗后,系統會顯示失敗原因或生成一份失敗任務報告,您可以在控制臺上查看失敗原因或下載該報告并排查失敗原因。
在數據流動頁簽,找到目標數據流動,單擊任務管理。
在任務管理面板,找到目標任務,并將光標放置失敗右側的氣泡上,查看失敗原因或下載失敗報告查看失敗原因。
說明若未顯示失敗原因或無報告或無法根據報告排查失敗原因,請提交工單咨詢處理。
查看任務配置信息和運行狀態
在控制臺中查看批式任務的配置信息及運行狀態。如果想查看流式任務的配置信息及運行狀態,可通過調用DescribeDataFlowTasks API進行查詢。
在數據流動頁簽,找到目標數據流動,單擊任務管理。
在任務管理面板,查看任務的配置信息及運行狀態。
參數
說明
任務ID
數據流動任務的唯一標識。
類型
任務類型。包括:導入或導出。
沖突策略
目標文件系統中已存在同名數據時的處理方式。包括:
跳過同名文件(缺省)
保持最新
覆蓋同名文件
數據源地址
數據從源端到目的端的完整傳輸路徑。
數據目的地址
數據源目錄
源端掃描總量
掃描到的源端數據量。單位:字節。
同步完成量
已完成數據流動數據量(包括跳過數據)。單位:字節。
實際傳輸量
實際流動的數據量。單位:字節。
平均速度
數據流動的平均傳輸速度。單位:Byte/s。
剩余時長
基于當前速度估算的任務完成所需時間。
時間段
任務開始時間和結束時間。
進度
當前任務的執行進度百分比。單位:%。
狀態
當前任務的執行情況。包括:
等待:數據流動任務已創建,在排隊中未開始執行。
運行中:數據流動任務在執行中。
失敗:數據流動任務執行失敗。
已取消:數據流動任務被取消并且沒有完成。
取消中:數據流動任務正在被取消。
結束:數據流動任務執行結束。
查看任務報告
當數據流動任務運行結束后,系統將根據實際情況生成跳過的文件報告、失敗的文件報告或成功文件報告。您可以在控制臺下載報告并查看文件的詳細信息。
在數據流動頁簽,找到目標數據流動,單擊任務管理。
在任務管理面板,找到目標任務,單擊下載任務報告。
確認待下載的報告,單擊。
查看任務性能監控或配置告警規則
要查看任務性能監控或配置告警規則,請確保使用的是CPFS智算版文件系統2.6.0及以上版本,并已創建數據流動任務。
如果您想了解數據流動導入或導出任務的讀寫吞吐、讀寫IOPS、元數據QPS等性能概況,請參見查看CPFS性能監控。
如果您希望為數據流動任務指定監控指標設置報警規則,以便及時獲知指標異常并迅速處理該異常,請參見配置基礎告警規則。