基于分箱組件實現(xiàn)連續(xù)特征離散化
特征離散是將連續(xù)的數(shù)據(jù)進(jìn)行分段,使其變?yōu)槎鄠€離散化區(qū)間。針對該場景,PAI推出了分箱組件和數(shù)據(jù)轉(zhuǎn)換模塊組件。首先使用分箱組件將連續(xù)特征離散化,再使用數(shù)據(jù)轉(zhuǎn)換模塊將原始數(shù)據(jù)從連續(xù)值轉(zhuǎn)換為離散值。本文為您介紹如何使用Designer組件進(jìn)行連續(xù)特征離散化。
前提條件
已創(chuàng)建工作空間,詳情請參見創(chuàng)建工作空間。
已將MaxCompute資源關(guān)聯(lián)到工作空間,詳情請參見管理工作空間。
操作步驟
進(jìn)入Designer頁面。
登錄PAI控制臺。
在左側(cè)導(dǎo)航欄單擊工作空間列表,在工作空間列表頁面中單擊待操作的工作空間名稱,進(jìn)入對應(yīng)工作空間內(nèi)。
在工作空間頁面的左側(cè)導(dǎo)航欄選擇 ,進(jìn)入Designer頁面。
創(chuàng)建空白工作流,并進(jìn)入工作流,詳情請參見新建自定義工作流。
其中:
工作流名稱:配置為基于分箱組件實現(xiàn)連續(xù)特征離散化。
描述:配置為使用PAI提供的分箱組件,實現(xiàn)連續(xù)特征離散化。
可見范圍:選擇僅自己可見。
構(gòu)建工作流流程。
在左側(cè)組件列表,將源/目標(biāo)下的讀數(shù)據(jù)表組件拖入畫布中。
在左側(cè)組件列表,將金融板塊下的分箱和數(shù)據(jù)轉(zhuǎn)換模塊組件拖入畫布中。
將以上組件拼接為如下工作流。
配置組件參數(shù)。
單擊畫布中的讀數(shù)據(jù)表組件,在右側(cè)面板,配置工作流數(shù)據(jù)源。
頁簽
參數(shù)
描述
表選擇
表名
輸入pai_online_project.iris_data。
分區(qū)
該公共數(shù)據(jù)表為非分區(qū)表,因此分區(qū)復(fù)選框不支持選中。
字段信息
源表字段信息
配置表名后,系統(tǒng)會自動同步該數(shù)據(jù)表的源表字段信息,無需手動配置。
單擊畫布中的分箱組件,在右側(cè)面板,配置參數(shù)(僅配置如下參數(shù),其他參數(shù)使用默認(rèn)值即可)。
頁簽
參數(shù)
描述
字段設(shè)置
特征列
選擇f1、f2、f3及f4列。
參數(shù)設(shè)置
分箱個數(shù)
配置為10,表示將連續(xù)特征離散化至10個區(qū)間中。
分箱方式
支持等頻、等寬及自動分箱。使用自動分箱時,數(shù)據(jù)源必須包含label字段,且為二分類場景。本文以等頻分箱為例。
單擊畫布中的數(shù)據(jù)轉(zhuǎn)換模塊組件,在右側(cè)面板,配置參數(shù)(僅配置如下參數(shù),其他參數(shù)使用默認(rèn)值即可)。
頁簽
參數(shù)
描述
字段設(shè)置
不進(jìn)行轉(zhuǎn)換的數(shù)據(jù)列
選擇type列,該列會原樣輸出。
數(shù)據(jù)轉(zhuǎn)換的類型
選擇Index。
單擊畫布上方的運(yùn)行按鈕。
查看工作流運(yùn)行結(jié)果。
工作流運(yùn)行結(jié)束后,右鍵單擊畫布中的數(shù)據(jù)轉(zhuǎn)換模塊組件,在快捷菜單,單擊 ,即可查看離散化結(jié)果。
右鍵單擊畫布中的分箱組件,在快捷菜單,單擊我要分箱。
單擊待查看特征(以f1特征列為例)名稱,即可查看該特征的分箱詳情,如下圖所示。
單擊圖表頁簽,以圖表的形式查看分箱結(jié)果。
相關(guān)文檔
關(guān)于算法組件更詳細(xì)的內(nèi)容介紹,請參見分箱、數(shù)據(jù)轉(zhuǎn)換模塊。
您可以使用Designer完成其他的AI開發(fā)任務(wù),關(guān)于Designer更詳細(xì)的內(nèi)容介紹,請參見Designer概述。