MaxCompute控制臺提供數據上傳功能,支持您將本地文件或阿里云對象存儲服務OSS中的文件數據離線(非實時)上傳至MaxCompute進行分析處理及相關管理操作。
使用限制
僅支持基于本地文件或阿里云對象存儲OSS上傳數據,具體如下。
本地文件:支持上傳CSV或XLSX格式的文件數據。
CSV格式:最大支持上傳5 GB數據
XLSX格式:最大支持上傳100 MB數據。
阿里云對象存儲OSS:僅支持上傳CSV格式的文件數據,數據量最大支持5 GB,且該數據所在的Bucket必須與當前MaxCompute項目位于同一地域。
不支持將數據上傳到具有自定義Schema的表中(包括已有表和新建表),自定義Schema相關信息請參見Schema操作。
前提條件
操作步驟
登錄MaxCompute控制臺,在左上角選擇地域。
在左側導航欄選擇數據傳輸 > 數據上傳,進入數據上傳頁面。
在數據上傳頁面參考表1 上傳目標數據配置各項參數。
表 1. 上傳目標數據
類別
參數名
描述
數據來源
本地文件
基于本地文件上傳數據。
僅支持上傳一個CSV文件或XLSX文件:
CSV文件:最大支持上傳5 GB數據,文件里的數據以半角逗號(,)分隔。
XLSX文件:最大支持上傳100 MB數據。默認僅上傳XLSX文件中首個Sheet頁的數據,如果有多個Sheet,則其他Sheet的數據將被忽略。
阿里云對象存儲OSS
基于阿里云對象存儲OSS上傳數據。
僅支持選擇當前地域下Bucket中的CSV文件。支持單次上傳的最大數據量為5 GB,若無可訪問的Bucket,需要新建Bucket,詳情請參見創建存儲空間。
說明若待上傳的數據量超過5 GB,您可以將數據進行拆分上傳,否則會導致上傳失敗。
指定待上傳數據
選擇Bucket
數據來源指定為阿里云對象存儲OSS時,選擇目標文件所在的OSS Bucket路徑。
選擇文件
選擇目標CSV文件或XLSX文件。
是否剔除臟數據
根據需要選擇在上傳文件數據時,是否剔除待上傳文件中與MaxCompute目標表的列類型不統一的數據。
說明例如:待上傳的數據中,某列值為含字母的字符串類型,但對應目標表的列是BIGINT類型,那么該數據將被視為臟數據。若選擇了剔除臟數據,則該條數據不會被上傳。
是:剔除待上傳文件中與目標表中的列類型不統一的數據。
否:數據全量上傳。
設置目標表
MaxCompute項目名稱
存放數據的MaxCompute項目。
目標表
根據需要選擇將數據上傳至已有表還是新建表:
已有表:配置方式請參見表2 上傳數據至已有表。
新建表:配置方式請參見表3 上傳數據至新建表。
表 2. 上傳數據至已有表
參數名
描述
選擇目標表
在下拉列表中選擇存放待上傳數據的MaxCompute表。支持通過關鍵字匹配搜索。
上傳方式
根據配置的目標表映射關系,將待上傳數據以指定方式添加至目標表中。
先清空表數據:直接覆蓋目標表中相應映射字段的數據。
追加:將待上傳數據追加至目標表映射字段中。
說明配置映射關系,詳情請參見預覽待上傳數據并設置目標表字段。
表 3. 上傳數據至新建表
參數名
描述
表名
自定義表名稱。
表類型
根據需要選擇非分區表或分區表,若選擇分區表,則需指定分區字段及其取值。
生命周期
預覽待上傳數據并設置目標表字段。
選擇待上傳數據及存放該數據的目標表后,您可預覽數據詳情,并配置數據所在文件的列與目標表字段的映射關系,配置后相關數據才可被成功上傳,配置方式如下。
說明目前僅支持預覽前20條數據。
類別
參數名
描述
上傳文件數據預覽
文件編碼
若文件存在亂碼,則可切換可用編碼。支持選擇UTF-8、GB18030或Big5。
按列名映射
將待上傳文件中的列與目標表中的列基于列名進行對應導入。
按順序映射
將待上傳文件中的數據按字段順序導入目標表。
忽略首行
是否將待上傳文件數據的首行(通常為列名稱)上傳至目標表中。
勾選:文件首行不上傳至目標表中。
不勾選:文件首行將上傳至目標表中。
單擊上傳數據,提交上傳。
重要若待上傳數據與目標表字段不存在映射關系,則該數據將會被置灰,且不會被上傳。
待上傳數據與目標表字段不能存在重復映射關系。
字段名稱和字段類型不能為空,否則數據無法上傳。
查看上傳記錄
提交上傳后,若數據量較大,需要耗費一些時間,您無需在提交頁面一直等待,可后續通過單擊數據上傳頁面右上角的查看上傳記錄查看通過該功能上傳數據的詳情記錄。
通過該頁面的查看上傳記錄查詢到的記錄詳情也包含使用DataWorks數據上傳操作產生的記錄。
后續操作
數據上傳成功后,您可根據需要通過連接工具對MaxCompute目標表進行數據查詢。