使用元數據清單導出功能,您可以將某個Bucket下的OSS-HDFS服務的元數據清單導出到某個特定路徑,格式為JSON文件,方便您對元數據進行統計分析。
前提條件
使用最新版本JindoSDK。下載地址,請參見GitHub。
配置OSS-HDFS服務下Bucket的訪問密鑰。
具體操作,請參見通過Jindo CLI命令訪問OSS/OSS-HDFS。
操作步驟
導出元數據清單。
登錄OSS管理控制臺。
單擊Bucket 列表,然后單擊目標Bucket名稱。
在左側導航欄,選擇
。在導出元數據清單區域,單擊導出。
導出過程大約需要數分鐘乃至數小時,具體用時取決于元數據量的大小。輸出的清單結果文件默認保存在
oss://<hdfs_bucket>.<dls_endpoint>/.sysinfo/inventory/
路徑下,暫不支持自定義輸出路徑。重要.sysinfo/inventory/
目錄不支持刪除。該目錄下的結果文件支持訪問和刪除。
下載文件。
執行以下命令下載元數據清單結果文件。
jindo fs -get oss://<hdfs_bucket>.<dls_endpoint>/.sysinfo/inventory/1666584461201.2ce40fba-5704-45c4-8720-d92a891d**** /tmp/
通過vi或vim命令打開元數據清單結果文件。
元數據清單結果文件示例如下:
{"id":163**,"path":"/","type":"directory","size":0,"user":"admin","group":"supergroup","atime":1666581702921,"mtime":1666581702933,"permission":511} {"id":624668410678950****,"path":"/dls-1000326249","type":"directory","size":0,"user":"hadoop","group":"supergroup","atime":1666581702923,"mtime":1660889124590,"permission":511} {"id":624668410678950****,"path":"/dls-1000326249/benchmark","type":"directory","size":0,"user":"hadoop","group":"supergroup","atime":166658170293325,"mtime":1660889124590,"permission":511} {"id":624668410678950****,"path":"/dls-1000326249/benchmark/n1","type":"directory","size":0,"user":"hadoop","group":"supergroup","atime":1666581702930,"mtime":1660889124590,"permission":511} {"id":624668410678950****,"path":"/dls-1000326249/benchmark/n1/490747449","type":"directory","size":0,"user":"hadoop","group":"supergroup","atime":1666581702931,"mtime":1660895613953,"permission":511}
元數據清單結果文件各字段的含義說明如下:
字段
含義
id
文件或目錄ID。
path
文件或目錄路徑。
type
元數據類型。
directory:表示目錄。
file:表示文件。
size
數據大小,單位為字節。
當元數據類型為file時,size字段的值為文件大小。
當元數據類型為directory,size字段的值為0。
user
文件或目錄所屬的owner。
group
文件或目錄所屬的用戶組。
atime
文件或目錄的訪問時間,格式為時間戳。
mtime
文件或目錄的修改時間,格式為時間戳。
permission
文件或者目錄的權限。
(可選)刪除元數據清單結果文件。
OSS-HDFS元數據清單結果文件會占用存儲空間,進而產生存儲費用。如果您確認不再需要保留該元數據清單結果文件,建議通過Hadoop命令的方式及時刪除。
重要刪除元數據清單結果文件時,元數據清單結果文件所在路徑必須與步驟1輸出結果中Data Location保持一致,避免誤刪除.dlsdata和.sysinfo路徑下的系統數據。
執行Jindo CLI命令刪除元數據清單結果文件的示例如下:
jindo fs -rm -skipTrash oss://<hdfs_bucket>.<dls_endpoint>/.sysinfo/inventory/1666584461201.2ce40fba-5704-45c4-8720-d92a891d****