本文為您介紹如何基于對象特征進行商品推薦。
前提條件
已創建工作空間,詳情請參見創建工作空間。
背景信息
該工作流首先對一份真實電商的4月份和5月份數據進行模型訓練并生成預測模型,然后通過6月份的購物數據對該預測模型進行評估,最終選擇最優的模型,并將其部署為EAS服務供業務方調用。
本工作流使用的數據為真實電商脫敏數據,僅用于學習,請勿商用。
該工作流數據和完整業務流程已經預置在Designer模板中,您通過拖拽組件即可快速實現一套基于協同過濾的推薦系統。同時,Designer支持模型一鍵部署,您可以一鍵將模型部署為EAS服務。
基于對象特征的推薦場景通用流程
將數據導入MaxCompute,生成有監督的結構化數據。
進行特征工程,例如數據的預處理和特征衍生。特征衍生的作用是擴充數據維度,使數據能更大限度地展示業務特點。
將數據拆分為兩份。其中一份作為訓練數據,通過分類算法生成二分類模型。另一份作為預測數據,通過預測組件對模型效果進行測試。
通過評估組件,獲得模型效果。
數據集
本數據源由天池大賽提供,根據時間將其分為4月份和5月份的購買行為數據和6月份的購買行為數據,具體字段如下。
字段名 | 含義 | 類型 | 描述 |
user_id | 用戶編號 | STRING | 購物的用戶ID。 |
item_id | 物品編號 | STRING | 被購買物品的編號。 |
active_type | 購物行為 | STRING |
|
active_date | 購物時間 | STRING | 購物發生的時間。 |
工作流的原始數據示例如下。
實現基于對象特征的推薦
進入Designer頁面。
登錄PAI控制臺。
在左側導航欄單擊工作空間列表,在工作空間列表頁面中單擊待操作的工作空間名稱,進入對應工作空間內。
在工作空間頁面的左側導航欄選擇 ,進入Designer頁面。
構建工作流。
在Designer頁面,單擊預置模板頁簽。
在模板列表,單擊基于對象特征的推薦下的創建。
在新建工作流對話框,配置參數(可以全部使用默認參數)。
其中:工作流數據存儲配置為OSS Bucket路徑,用于存儲工作流運行中產出的臨時數據和模型。
單擊確定。
您需要等待大約十秒鐘,工作流可以創建成功。
在工作流列表,雙擊基于對象特征的推薦工作流,進入工作流。
系統根據預置的模板,自動構建工作流,如下圖所示。
區域
描述
①
特征工程。將僅有4個字段的原始數據通過特征工程的方法進行數據維度擴充,該實驗中的特征包括推薦對象的特征和被推薦對象的特征:
推薦對象為用戶(User),擴充的維度為每個User的總購買量、總點擊量及總點擊購買率(點擊量除以購買率,用于描述用戶購物的果斷性)。
被推薦對象為商品(Item),擴充的維度為每個Item的購買量、點擊量及點擊購買率(購買量除以點擊率)。
特征工程后,數據集從原始的4個字段擴充到10個字段,如下圖所示。
②
該實驗使用了邏輯回歸算法進行模型訓練。
您可以單擊邏輯回歸二分類-1組件,在右側字段設置頁簽,選中是否生成PMML復選框,即可生成PMML模型。
③
模型評估,即使用預留的一部分未參與模型訓練的數據評估模型質量。通常,推薦場景都屬于二分類實驗,可以使用混淆矩陣和二分類評估組件評估模型預測結果。
運行實驗并查看輸出結果。
單擊畫布上方的運行。
實驗運行結束后,右鍵單擊畫布中的邏輯回歸二分類-1,在快捷菜單,單擊 ,即可導出訓練完成的基于對象特征的推薦模型。
右鍵單擊畫布中的預測,在快捷菜單,單擊 ,即可查看模型預測結果。
查看模型評估結果。
右鍵單擊畫布中的二分類評估-1,在快捷菜單,單擊可視化分析。
在二分類評估-1區域,單擊評估圖表頁簽,查看ROC曲線。
其中藍色區域的面積為AUC值,面積越大表示模型質量越高。
右鍵單擊畫布中的混淆矩陣-1,在快捷菜單,單擊可視化分析。
在混淆矩陣-1區域的混淆矩陣頁簽,查看預測評估指標。
在線部署模型。
如果模型效果達到預期,則可以單擊畫布上方的模型列表,將其部署為在線服務。具體操作,請參見單模型部署在線服務。