主成分分析
主成分分析(PCA)是研究如何通過(guò)少數(shù)主成分揭示多個(gè)變量間的內(nèi)部結(jié)構(gòu),考察多個(gè)變量間相關(guān)性的一種多元統(tǒng)計(jì)方法。PCA從原始變量中導(dǎo)出少數(shù)主成分,使它們盡可能多地保留原始變量的信息,并且彼此間互不相關(guān),作為新的綜合指標(biāo)。
使用限制
主成分分析算法實(shí)現(xiàn)了降維和降噪的功能,僅支持稠密數(shù)據(jù)格式。
組件配置
您可以使用以下任意一種方式,配置主成分分析組件參數(shù)。
方式一:可視化方式
在Designer工作流頁(yè)面配置組件參數(shù)。
頁(yè)簽 | 參數(shù) | 描述 |
字段設(shè)置 | 選擇特征列 | 輸入表中用于分析的列名稱。 |
附加列 | 附加在降維數(shù)據(jù)表后的列。 | |
參數(shù)設(shè)置 | 信息量比例 | 降維后數(shù)據(jù)信息占原來(lái)的比例。 |
特征分解方式 | 分解特征的方式,取值如下:
| |
數(shù)據(jù)轉(zhuǎn)換方式 | 轉(zhuǎn)換為新數(shù)據(jù)的處理方式,取值如下:
| |
執(zhí)行調(diào)優(yōu) | 生命周期 | 指定輸出表的生命周期,取值為正整數(shù)。 |
節(jié)點(diǎn)個(gè)數(shù) | 與單個(gè)節(jié)點(diǎn)內(nèi)存大小參數(shù)配對(duì)使用。取值為[1, 9999]的正整數(shù)。 | |
單個(gè)節(jié)點(diǎn)內(nèi)存大小 | 單位為兆。取值范圍為[1024, 64*1024]的正整數(shù)。 |
方式二:PAI命令方式
使用PAI命令方式,配置該組件參數(shù)。您可以使用SQL腳本組件進(jìn)行PAI命令調(diào)用,詳情請(qǐng)參見(jiàn)SQL腳本。
PAI -name PrinCompAnalysis
-project algo_public
-DinputTableName=bank_data
-DeigOutputTableName=pai_temp_2032_17900_2
-DprincompOutputTableName=pai_temp_2032_17900_1
-DselectedColNames=pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed
-DtransType=Simple
-DcalcuType=CORR
-DcontriRate=0.9;
參數(shù)名稱 | 是否必選 | 參數(shù)描述 | 默認(rèn)值 |
inputTableName | 是 | 進(jìn)行主成分分析的輸入表。 | 無(wú) |
selectedColNames | 是 | 輸入表中用于分析的列名稱。 使用逗號(hào)分隔,支持INT和DOUBLE類型。 | 無(wú) |
eigOutputTableName | 是 | 特征向量與特征值的輸出表。 | 無(wú) |
princompOutputTableName | 是 | 進(jìn)行主成分降維降噪后的結(jié)果輸出表。 | 無(wú) |
transType | 否 | 轉(zhuǎn)換原表為主成分分析表的方式,取值如下:
| Simple |
calcuType | 否 | 對(duì)原表進(jìn)行特征分解的方式,取值如下:
| CORR |
contriRate | 否 | 數(shù)據(jù)信息降維后保留的百分比。取值范圍為(0,1)。 | 0.9 |
remainColumns | 否 | 降維表保留原表的字段。 | 無(wú) |
coreNum | 否 | 節(jié)點(diǎn)個(gè)數(shù),與memSizePerCore參數(shù)配對(duì)使用。取值范圍為[1, 9999]的正整數(shù)。 | 系統(tǒng)自動(dòng)分配。 |
memSizePerCore | 否 | 單個(gè)節(jié)點(diǎn)的內(nèi)存大小,單位為兆。取值范圍為[1024, 64*1024]的正整數(shù)。 | 系統(tǒng)自動(dòng)分配。 |
lifecycle | 否 | 指定輸出表的生命周期,取值為正整數(shù)。 | 無(wú) |
示例
PCA輸出示例
降維后的數(shù)據(jù)表
特征值和特征向量表