CPFS智算版數據流動(公測)
當您需要實現CPFS智算版文件系統與OSS Bucket之間的數據進行數據流動時,必須創建數據流動并為其創建數據流動任務,即可完成數據的高速傳輸。
功能介紹
CPFS智算版支持以下數據流動功能:
賬號級別的數據流動
支持與同賬號或跨賬號OSS Bucket之間的數據進行數據流動。
目錄級別的數據流動
您可以通過創建數據流動,建立從CPFS智算版文件系統任意子目錄到OSS Bucket下任意prefix的映射,實現更細粒度的權限控制與更靈活的數據傳輸。
數據的導入與導出
支持通過創建批式任務或流式任務實現CPFS智算版文件系統與OSS之間的數據導入和導出。批式任務適用于計算任務開始前數據集的預加載;流式任務適用于計算任務訓練中模型多個Checkpoint文件持續性的寫回與預加載場景。如果任務執行失敗,您可以通過任務報告檢查失敗原因。
警告CPFS智算版會將File Modification timestamps屬性導出到OSS Bucket的自定義元數據中,其命名為
x-oss-meta-alihbr-sync-mtime
,不能刪除或修改,否則文件系統中的File Modification timestamps屬性會錯誤。
使用限制
數據流動
CPFS智算版2.4.0及以上版本支持同賬號數據流動,CPFS智算版2.6.0及以上版本支持跨賬號數據流動。
單個CPFS智算版文件系統最多支持創建10個數據流動。
CPFS智算版文件系統的一個文件路徑只能與一個OSS Bucket鏈接。
CPFS智算版文件系統不支持與其他區域的OSS Bucket創建數據流動。
數據流動對文件系統的限制
在數據流動關聯的文件系統路徑中,不可對非空目錄執行重命名操作,否則報錯
Permission Denied
或者目錄非空。目錄、文件名中的特殊字符需要謹慎使用,僅支持大小寫字母、數字、感嘆號(!)、短劃線(-)、下劃線(_)、半角句號(.)、星號(*)和半角圓括號(()),不支持雙半角句號(..)、反斜杠(\)、正斜杠(/)。
不支持超長路徑,數據流動支持的路徑最大長度是1023個字符。
數據流動任務限制
僅CPFS智算版2.6.0及以上版本支持流式任務,且僅支持通過OpenAPI使用。
單個數據流動下最多支持同時運行4個批式任務,流式任務無限制。
導入限制
Symlink類型的文件導入到CPFS智算版后,會轉變為包含數據的普通文件,并丟失Symlink信息。
如果OSS Bucket存在多個版本,則只復制最新的版本。
不支持長度大于255字節的文件名或子目錄名。
導出限制
Symlink類型的文件在同步到OSS后,不會同步Symlink所指向的文件,而是會變成一個普通的無數據空白對象。
Hardlink類型的文件僅作為普通文件同步到OSS。
Socket、Device、Pipe類型的文件導出到OSS Bucket時,會變成一個普通的無數據空白對象。
不支持長度大于1023字符的目錄路徑。
性能指標
操作類型 | 指標 | 說明 |
導入數據 | GB級以上文件吞吐 |
|
MB級文件每秒處理個數 | 單目錄、多目錄導入:1000。 | |
導出數據 | GB級以上文件吞吐 |
|
MB級文件每秒處理個數 | 單目錄、多目錄導出:1200。 |
費用說明
CPFS智算版數據流動功能當前公測中,免費使用。
使用流程
創建數據流動。
創建批式任務或流式任務。
流式任務,請參見管理數據流動任務。
批式任務,請參見數據流動流式任務最佳實踐。