Designer預置了邏輯回歸算法模板,便于您基于中學生的家庭背景及在校行為,通過邏輯回歸算法快速生成期末成績預測模型,從而獲得影響中學生學業的關鍵因素。本文為您介紹邏輯回歸算法預置模板的具體使用方法。
背景信息
通過本工作流獲得學生考試成績預測模型后,您可以將需要預測的內容上傳至MaxCompute表中,從而進行離線預測。
前提條件
數據集
本工作流的數據集由25個特征列和一個目標列組成,具體字段如下。
字段名 | 類型 | 描述 |
sex | STRING | 性別。F表示女,M表示男。 |
address | STRING | 住址。U表示城市,R表示鄉村。 |
famsize | STRING | 家庭成員數。LE3表示少于三人,GT3表示多于三人。 |
pstatus | STRING | 是否與父母一起住。T表示與父母一起住,A表示與父母分開住。 |
medu | DOUBLE | 母親的文化水平,從0~4表示學歷依次增高。 |
fedu | DOUBLE | 父親的文化水平,從0~4表示學歷依次增高。 |
mjob | STRING | 母親的工作,包括教師相關、健康相關及服務業。 |
fjob | STRING | 父親的工作,包括教師相關、健康相關及服務業。 |
guardian | STRING | 學生的監管人,包括mother、father及other。 |
traveltime | DOUBLE | 從家到學校需要的時間,單位為分鐘。 |
studytime | DOUBLE | 每周的學習時間,單位為小時。 |
failures | DOUBLE | 掛科次數。 |
schoolsup | STRING | 是否有額外的學習輔助,取值為yes或no。 |
fumsup | STRING | 是否有家教,取值為yes或no。 |
paid | STRING | 是否有相關考試學科的輔助,取值為yes或no。 |
activities | STRING | 是否有課外興趣班,取值為yes或no。 |
higher | STRING | 是否有向上求學意愿,取值為yes或no。 |
internet | STRING | 家里是否連網,取值為yes或no。 |
famrel | DOUBLE | 家庭關系,從1~5表示關系從差到好。 |
freetime | DOUBLE | 課余時間量,從1~5表示課余時間依次增多。 |
goout | DOUBLE | 與朋友出去玩的頻率,從1~5表示從少到多。 |
dalc | DOUBLE | 日飲酒量,從1~5表示從少到多。 |
walc | DOUBLE | 周飲酒量,從1~5表示從少到多。 |
health | DOUBLE | 健康狀況,從1~5表示狀態從差到好。 |
absences | DOUBLE | 出勤量,取值范圍0次~93次。 |
g3 | STRING | 期末成績,使用20分制表示。 |
工作流數據的示例如下。
預測學生考試成績
進入Designer頁面。
登錄PAI控制臺。
在左側導航欄單擊工作空間列表,在工作空間列表頁面中單擊待操作的工作空間名稱,進入對應工作空間內。
在工作空間頁面的左側導航欄選擇 ,進入Designer頁面。
構建工作流。
在Designer頁面,單擊預置模板頁簽。
在模板列表的在線預測-中學生成績預測區域,單擊創建。
在新建工作流對話框,配置參數(可以全部使用默認參數)。
其中:工作流數據存儲配置為OSS Bucket路徑,用于存儲工作流運行中產出的臨時數據和模型。
單擊確定。
您需要等待大約十秒鐘,工作流可以創建成功。
在工作流列表,雙擊在線預測-中學生成績預測工作流,進入工作流。
系統根據預置的模板,自動構建工作流,如下圖所示。
區域
描述
①
數據預處理。使用SQL腳本組件將文本數據結構化:
將源數據中的yes和no分別轉換為0和1。
對于多種類的文本型字段,結合業務場景將數據抽象化。例如Mjob字段,將teacher表示為1,其他值表示為0,即抽象后該特征表示工作是否與教育相關。
對于目標列,將取值大于18的表示為1,反之表示為0。
②
使用歸一化組件將所有字段轉換為0~1之間,從而消除字段大小不均衡造成的影響。
③
將輸入數據集按照8:2的比例拆分為訓練數據集和預測數據集。
④
通過邏輯回歸算法,生成離線模型。
⑤
通過混淆矩陣組件評估模型準確率。
運行工作流并查看輸出結果。
單擊畫布上方的運行按鈕,運行工作流。
工作流運行結束后,右鍵單擊畫布中的混淆矩陣,在快捷菜單,單擊可視化分析。
在混淆矩陣對話框,單擊統計信息頁簽,即可查看模型預測準確率為80%以上。
相關文檔
關于算法組件更詳細的內容介紹,請參見: