基于回歸算法實現(xiàn)農(nóng)業(yè)貸款發(fā)放預(yù)測
線性回歸是數(shù)理統(tǒng)計中的回歸分析方法,可以確定兩種或兩種以上變量之間相互依賴的定量關(guān)系。Designer預(yù)置了線性回歸算法模板,便于您通過農(nóng)業(yè)貸款的歷史發(fā)放情況,快速實現(xiàn)貸款發(fā)放預(yù)測。本文為您介紹Designer線性回歸算法預(yù)置模板的具體使用方法。
背景信息
農(nóng)業(yè)貸款發(fā)放問題是一個典型的數(shù)據(jù)挖掘問題。貸款發(fā)放人通過歷史貸款數(shù)據(jù)(包括貸款人的年收入、種植作物種類及歷史借貸信息等)構(gòu)建經(jīng)驗?zāi)P停㈩A(yù)測受貸人的還款能力。
本工作流數(shù)據(jù)為虛構(gòu),僅供學(xué)習(xí)。
前提條件
已創(chuàng)建工作空間,詳情請參見創(chuàng)建工作空間。
已將MaxCompute資源關(guān)聯(lián)到工作空間,詳情請參見管理工作空間。
數(shù)據(jù)集
本工作流的數(shù)據(jù)集包括如下字段。
字段名 | 類型 | 描述 |
id | STRING | 數(shù)據(jù)唯一標(biāo)識符。 |
name | STRING | 用戶名。 |
region | STRING | 用戶所屬地區(qū),從北到南排列。 |
farmsize | DOUBLE | 土地面積。 |
rainfall | DOUBLE | 降雨量。 |
landquality | DOUBLE | 土地質(zhì)量,該參數(shù)取值越大越好。 |
farmincome | DOUBLE | 年收入。 |
maincrop | STRING | 種植作物的種類。 |
claimtype | STRING | 貸款類型。 |
claimvalue | DOUBLE | 貸款金額。 |
基于回歸算法預(yù)測農(nóng)業(yè)貸款發(fā)放
進(jìn)入Designer頁面。
登錄PAI控制臺。
在左側(cè)導(dǎo)航欄單擊工作空間列表,在工作空間列表頁面中單擊待操作的工作空間名稱,進(jìn)入對應(yīng)的工作空間。
在工作空間頁面的左側(cè)導(dǎo)航欄選擇 ,進(jìn)入Designer頁面。
構(gòu)建工作流。
在Designer頁面,單擊預(yù)置模板頁簽。
在工作流模板列表的農(nóng)業(yè)貸款預(yù)測的回歸算法實現(xiàn)區(qū)域,單擊創(chuàng)建。
在新建工作流對話框,配置參數(shù)(可以全部使用默認(rèn)參數(shù))。
其中:工作流數(shù)據(jù)存儲配置為OSS Bucket路徑,用于存儲工作流運行中產(chǎn)出的臨時數(shù)據(jù)和模型。
單擊確定。
您需要等待大約十秒鐘,工作流可以創(chuàng)建成功。
在工作流列表,選擇農(nóng)業(yè)貸款預(yù)測的回歸算法實現(xiàn)工作流,單擊進(jìn)入工作流。
系統(tǒng)根據(jù)預(yù)置的模板,自動構(gòu)建工作流,如下圖所示。
區(qū)域
描述
①
讀數(shù)據(jù)表讀入的數(shù)據(jù)為工作流數(shù)據(jù)集,包括:
貸款訓(xùn)練集:共一百條歷史貸款數(shù)據(jù),包括farmsize及rainfall等特征,用于訓(xùn)練回歸模型。其中claimvalue表示貸款收回的金額。
貸款預(yù)測集:共七十一人,指今年申請貸款者。其中claimvalue表示申請的貸款金額。
本工作流通過貸款訓(xùn)練集中的歷史數(shù)據(jù),預(yù)測為貸款預(yù)測集中的哪些申請人發(fā)放貸款。
②
根據(jù)含義將字符串類型的數(shù)據(jù)映射為數(shù)字。以region字段為例,先將其中的north、middle及south按照從北到南的順序分別映射為0、1及2,再將其轉(zhuǎn)換為DOUBLE類型。
③
首先使用線性回歸組件對歷史數(shù)據(jù)進(jìn)行訓(xùn)練并生成回歸模型。然后在預(yù)測組件中利用回歸模型對預(yù)測數(shù)據(jù)集進(jìn)行貸款發(fā)放預(yù)測。最后通過合并列組件將用戶ID、預(yù)測值及申請的貸款值合并,結(jié)果如下圖所示。其中prediction_score表示用戶的還貸能力(預(yù)期可以歸還的金額)。
④
使用回歸模型評估組件進(jìn)行模型評估,評估指標(biāo)詳情請參見評估指標(biāo)。
⑤
通過過濾與映射組件篩選可以獲得貸款的用戶。對于每個申請貸款人,如果預(yù)測獲得該貸款人的還款能力大于其申請的貸款金額,則發(fā)放貸款。
表 1. 評估指標(biāo)
字段名稱
描述
MAE
平均絕對誤差
MAPE
平均絕對百分誤差
MSE
均方誤差
R
多重相關(guān)系數(shù)
R2
判定系數(shù)
RMSE
均方根誤差
SAE
絕對誤差和
SSE
誤差平方和
SSR
回歸平方和
SST
總平方和
count
行數(shù)
predictionMean
預(yù)測結(jié)果的均值
yMean
原始因變量的均值
運行工作流并查看輸出結(jié)果。
單擊畫布上方的運行按鈕,運行工作流。
工作流運行結(jié)束后,右鍵單擊畫布中的過濾與映射,在快捷菜單,單擊 ,即可查看可以為其發(fā)放貸款的用戶。
相關(guān)文檔
關(guān)于算法組件更詳細(xì)的內(nèi)容介紹,請參見: