服務初始化
概述
本篇將描述如何初始化開通和使用PAI-Rec產品及相關資源和服務,包括購買并開通PAI、DataWorks、MaxCompute、OSS,并在PAI-Rec中對上述資源進行綁定,以及對算法、工程同學進行權限授權操作。
PAI-Rec初始化流程主要分為以下幾個步驟:
開通建模相關資源。
購買PAI-Rec實例。
PAI-Rec的服務初始化。
建模相關資源介紹
機器學習平臺PAI機器學習平臺PAI(Platform of Artificial Intelligence)是面向開發者和企業的機器學習/深度學習工程平臺,提供包含數據標注、模型構建、模型訓練、模型部署、推理優化在內的AI開發全鏈路服務。
DataWorks、MaxCompute是基于云原生的兩款大數據服務,可搭配使用,針對推薦系統中特征處理、樣本生成、畫像管理、模型調度、數據更新等環節,提供了易用的開發工具和穩定的數據環境。
對象存儲 OSS 阿里云對象存儲 OSS(Object Storage Service)是一款海量、安全、低成本、高可靠的云存儲服務,提供最高可達 99.995 % 的服務可用性。多種存儲類型供選擇,全面優化存儲成本。
Hologres是阿里巴巴自主研發的一站式實時數倉引擎(Real-Time Data Warehouse),支持海量數據實時寫入、實時更新、實時加工、實時分析,支持標準SQL(兼容PostgreSQL協議和語法,支持大部分PostgreSQL函數),支持PB級數據多維分析(OLAP)與即席分析(Ad Hoc),支持高并發低延遲的在線數據服務(Serving),支持多種負載的細粒度隔離與企業級安全能力,與MaxCompute、Flink、DataWorks深度融合,提供企業級離在線一體化全棧數倉解決方案。
開通資源
DataWorks&MaxCompute
MaxCompute是適用于數據分析場景的企業級SaaS(Software as a Service)模式云數據倉庫,以Serverless架構提供快速、全托管的在線數據倉庫服務,消除了傳統數據平臺在資源擴展性和彈性方面的限制,最小化用戶運維投入,使您可以經濟并高效地分析處理海量數據。
DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大數據引擎,為數據倉庫、數據湖、湖倉一體等解決方案提供統一的全鏈路大數據開發治理平臺。
1. 購買產品
主賬號登錄阿里云官網搜索DataWorks,點擊“立即購買”按鈕,或進入DataWorks產品首頁,單擊立即開通,注意這里需要對DataWorks+MaxCompute進行組合購買。
僅阿里云賬號、以及擁有
AliyunBSSOrderAccess
或AliyunDataWorksFullAccess
權限策略的RAM用戶可開通DataWorks服務。授權詳情請參見為RAM用戶授權。首次開通MaxCompute時,默認開通的是按量付費標準版的MaxCompute,按量付費計費模式的版本,不使用時不收取費用,開通后如果使用,會根據使用量收取費用,各類計費項的計費詳情請參見計算費用(按量付費)、存儲費用、數據傳輸費用(公網下載)。
2. 選擇地域
購買完成后,需要選擇您購買的資源所在的地域。
登錄DataWorks控制臺。
在控制臺頂部菜單欄切換所需地域。
工作空間是基于地域創建的,您需根據業務數據的使用地域,先切換至所需地域,在相應地域下創建工作空間。
說明請確認當前地域是否為目標地域,工作空間創建后不支持修改地域。
若當前地域施行夏令時,為避免夏令時切換對您任務執行造成額外理解成本,建議實施夏令時的地域優先查看場景:夏令時切換對調度任務運行的影響。
選擇地域后,默認情況下DataWorks工作空間所在地域對應的時區即為調度時區(即任務定時調度時間所使用的時區)。
DataWorks部分地域目前支持多調度時區切換,支持修改調度時區的地域、各地域支持切換的時區、切換時區注意事項、如何切換時區,請務必提前閱讀場景:切換調度時區。
3. 創建DataWorks工作空間
創建前準備
創建工作空間前,您需先規劃工作空間并選擇合適的空間模式,具體如下表。
操作項 | 描述 | 參考鏈接 |
規劃工作空間 | 工作空間為DataWorks支持的最大業務劃分粒度,使用工作空間前,您需要先了解工作空間的體系,并根據需求制定適用于不同場景的工作空間劃分方案。 | |
選擇空間模式 | DataWorks工作空間分為簡單模式與標準模式:
說明 建議您在實際任務開發時,選擇標準模式工作空間。 |
步驟一:切換地域
登錄DataWorks控制臺。
在控制臺頂部菜單欄切換所需地域。
工作空間是基于地域創建的,您需根據業務數據的使用地域,先切換至所需地域,在相應地域下創建工作空間。
說明請確認當前地域是否為目標地域,工作空間創建后不支持修改地域。
若當前地域施行夏令時,為避免夏令時切換對您任務執行造成額外理解成本,建議實施夏令時的地域優先查看場景:夏令時切換對調度任務運行的影響。
選擇地域后,默認情況下DataWorks工作空間所在地域對應的時區即為調度時區(即任務定時調度時間所使用的時區)。
DataWorks部分地域目前支持多調度時區切換,支持修改調度時區的地域、各地域支持切換的時區、切換時區注意事項、如何切換時區,請務必提前閱讀場景:切換調度時區。
步驟二:創建工作空間
在控制臺單擊左側導航欄的工作空間列表,進入工作空間列表頁面。
在工作空間列表頁,選擇創建工作空間。
工作空間是DataWorks管理任務、成員,分配角色和權限的基本單元,所有開發工作都將在具體的工作空間內完成。因此,進行任務開發前您需要先創建工作空間。進入工作空間創建入口后,需按照指引配置工作空間相關信息。
說明DataWorks部分地域目前支持多調度時區切換,支持修改調度時區的地域、各地域支持切換的時區、切換時區注意事項、如何切換時區,請務必提前閱讀場景:切換調度時區。
參數說明如下。
參數
描述
工作空間名稱
當前工作空間的唯一標識,創建后無法修改。
顯示名
建議基于業務屬性命名,便于標識工作空間用途。
生產、開發環境隔離
定義工作空間模式,即工作空間的生產環境和開發環境是否隔離。
是:需隔離生產、開發環境,該方式創建的工作空間為標準模式工作空間。
否:無需隔離生產、開發環境,該方式創建的工作空間為簡單模式工作空間。
工作空間模式介紹,詳情請參見必讀:簡單模式和標準模式的區別。您可結合業務需求確認,需創建哪種類型的工作空間。
空間管理員
定義該工作空間的管理員。
默認當前登錄賬號為該工作空間的管理員。您也可自行添加工作空間中的其他成員為管理員,協同管理該工作空間。添加空間成員,詳情請參見添加工作空間成員。
阿里云資源組
選擇阿里云資源管理中創建的資源組,默認選擇默認資源組。
若您的公司購買了多種阿里云資源,則可通過資源管理創建資源組進行云資源分組,并為資源組設置管理員,通過分組獨立管理資源組內的所有資源。
重要此處選擇的資源組是在阿里云賬號下進行資源分組管理的一種機制,幫助您解決單個阿里云賬號內的資源分組和授權管理的復雜性問題。與DataWorks產品所說的任務運行需使用的資源組為兩個概念,請注意區分。
調度PAI算法任務
如需進行周期性調度算法任務,則可啟用該功能。您也可在創建工作空間后,進入管理中心,在工作空間頁面開啟。
說明該功能開啟后無法關閉,請根據需要開啟。調度PAI算法任務詳情,請參見機器學習。
描述
用于輔助標識工作空間的主要用途、相關信息。
詳情可參考:創建工作空間
4. 綁定MaxCompute引擎
DataWorks工作空間創建完成后,需要為工作空間綁定MaxCompute計算引擎,才可進行后續工作。
綁定MaxCompute數據源,可參考《創建MaxCompute數據源》。
OSS
注意:
OSS 的 bucket 名稱需要全局唯一,部署之前需要修改模板中的名稱。
一. 購買OSS
二. 創建OSS空間
登錄OSS管理控制臺。
在左側導航欄,單擊Bucket列表,然后單擊創建Bucket。
在創建Bucket面板,按如下說明配置必要參數。其他參數均可保持默認配置,也可以在Bucket創建完成后單獨配置。然后單擊確定。
參數
描述
Bucket名稱
Bucket的名稱。Bucket一旦創建,則無法更改其名稱。
命名規則如下:
Bucket名稱必須全局唯一。
只能包括小寫字母、數字和短劃線(-)。
必須以小寫字母或者數字開頭和結尾。
長度必須在3~63字符之間。
說明避免在存儲空間名稱中包含敏感信息,例如賬號。存儲空間名稱會顯示在存儲空間中文件的URL中。
地域
Bucket的數據中心。Bucket一旦創建,則無法更改其所在地域。
如需通過ECS內網訪問OSS,請選擇與ECS相同的地域。更多信息,請參見 OSS訪問域名使用規則。
存儲冗余類型
Bucket的數據容災類型。
本地冗余存儲
采用單可用區(AZ)內的數據冗余存儲機制,將用戶的數據冗余存儲在同一個可用區內多個設施的多個設備上,確保硬件失效時的數據持久性和可用性。
同城冗余存儲(推薦)
采用多可用區(AZ)內的數據冗余存儲機制,將用戶的數據冗余存儲在同一地域(Region)的多個可用區。當某個可用區不可用時,仍然能夠保障數據的正常訪問。
重要華南1(深圳)、華北2(北京)、華東1(杭州)、華東2(上海)、中國香港、新加坡以及印度尼西亞(雅加達)地域支持開啟同城冗余存儲。此外,同城冗余存儲的費用較高,且開啟后不支持關閉,請謹慎操作。
關于同城冗余存儲的更多信息,請參見創建同城冗余存儲Bucket。
創建完成后,您可以看到創建成功提示。
Hologres
一. 購買Hologres實例
操作詳情可參考:購買Hologres
二. 創建數據庫
進入Hologres管理控制臺,單擊左側實例列表。
在實例列表頁面,單擊實例名稱。
您也可以單擊目標實例操作列的管理,進入實例詳情頁。
在實例詳情頁左側導航欄,單擊數據庫管理。
在DB授權頁面,單擊右上角新增數據庫。
在新增數據庫對話框,選擇實例名并填寫數據庫名稱,根據實際業務選擇簡單權限策略,推薦您選擇SPM。
策略分類
策略描述
簡單權限模型(SPM)
該權限模型授權是以DB為粒度,劃分admin(管理員)、developer(開發者)、writer(讀寫者)以及viewer(分析師)四種角色,您可以通過少量的權限管理函數,即可對DB中的對象進行方便且安全的權限管理,詳情請參見簡單權限模型概述。
基于Schema級別的簡單權限模型(SLPM)
該權限模型以Schema為粒度,劃分 <db>.admin(DB管理員)、<db>.<schema>.developer(開發者)、<db>.<schema>.writer(讀寫者)以及 <db>.<schema>.viewer(分析師),相比于簡單權限模型更為細粒度,詳情請參見基于Schema級別的簡單權限模型概述。
專家模型
與PostgreSQL的權限模型完全一致,簡稱專家模式,詳情請參見專家權限模型。
單擊確認。
您可以在DB授權頁面,查看已創建的數據庫。
詳情可參考:創建數據庫
購買PAI-Rec實例
1、進入全鏈路推薦系統開發平臺首頁,點擊“立即購買”按鈕。
2、在彈出的購買頁中,請選擇購買合適的規格,如對產品規格有疑問,請咨詢SA銷售或技術支持同學,或者加入釘釘群32260796詢問。
3、購買完成后,返回步驟1頁面,點擊“管理控制臺”進入PAI-Rec操作臺,點擊詳情可跳轉到具體PAI-Rec實例。
PAI-Rec的服務初始化
初始化“建模、引擎、其他”三類功能,以及開發角色授權請參考全鏈路服務初始化和權限開通介紹。