PAI-TensorFlow使用指南
PAI-TF是人工智能平臺PAI為了追求更極致的深度學習訓練效率,優化原生Tensorflow的內核并開發周邊工具,推出的一款產品。PAI-TF擁有服務化、分布式調度、全局計算調度、GPU卡映射及模型在線預測等特點。
公共云GPU服務器即將過保下線,您可以繼續提交CPU版本的TensorFlow任務。如需使用GPU進行模型訓練,請前往DLC提交任務,具體操作請參見創建訓練任務。
背景
TensorFlow是Google最新的開源深度學習計算框架,支持CNN、RNN及LSTM等多種神經網絡模型,對語音、圖像及文本等領域的模型訓練效率極佳。TensorFlow的功能豐富且強大,并擁有高度靈活的API,受到業界的高度關注。
PAI-TF是人工智能平臺PAI為了追求更極致的深度學習訓練效率,優化原生TensorFlow的內核并開發周邊工具,推出的一款產品。PAI-TF完全兼容原生TensorFlow的代碼,并且在許多工業化生產場景的性能更加優越。目前,PAI-TF已經在人工智能平臺PAI、阿里云E-MapReduce等產品上線并應用。
產品特點
PAI-TF產品的特點如下:
服務化
MaxCompute是阿里云自主研發的飛天大數據平臺,已經支持了數萬企業及個人開發者。PAI-TF幫助您直接在MaxCompute中使用TensorFlow的計算框架。PAI-TF使用的API與開源版本一致,您可以直接通過TensorFlow Training Script接口提交作業至MaxCompute的計算集群中執行。
分布式調度
PAI為您提供海量的計算資源,所有的計算資源通過GPU Quota進行管理。PAI-TF的作業都是基于底層的分布式調度系統動態調度至不同機器。當您提交PAI-TF作業時,無需擔心是否需要提前申請GPU物理主機,PAI-TF所需要的GPU資源隨作業的提交動態分配,隨作業的結束動態釋放。
全局計算調度
當您在使用MaxCompute計算引擎時,您可以在一個項目中同時提交SQL作業和PAI-TF作業。MaxCompute全局計算調度服務能夠將PAI-TF作業自動調度至相應的GPU集群,并將基于CPU集群的數據預處理作業和基于GPU集群的模型訓練作業連接起來。
GPU卡映射
PAI-TF支持將不同算子(Operators)指定至特定的CPU或GPU上。基于GPU卡映射,您無需感知宿主機的GPU卡物理結構,PAI-TF會將您作業中申請的GPU卡自動映射至作業進程空間,則您感知到的GPU卡為gpu:0、gpu:1….等。
模型在線預測
PAI為您提供了在線預測服務EAS。您可以將PAI-TF中訓練生成的模型一鍵部署至在線預測服務。在線預測服務支持模型的動態擴容、滾動更新、A/B測試、高吞吐及低延時等特性。
支持的Python三方庫
PAI-TF已經安裝了Numpy及Six等常見的Python三方庫,您可以在TensorFlow作業中直接導入相關的庫。