隨機采樣
隨機采樣算法是一種從輸入數(shù)據(jù)集中提取樣本的技術(shù),依據(jù)指定的比例或數(shù)量,隨機選擇樣本以生成子集。每次采樣過程都是獨立的,確保每個樣本被選中的概率相等且不受其他樣本選擇的影響。該方法常用于創(chuàng)建訓(xùn)練和測試數(shù)據(jù)集,以保證模型評估的無偏性和代表性,特別適用于大規(guī)模數(shù)據(jù)處理。
配置組件
方式一:可視化方式
在Designer工作流頁面添加隨機采樣組件,并在界面右側(cè)配置相關(guān)參數(shù):
參數(shù)類型 | 參數(shù) | 描述 |
參數(shù)設(shè)置 | 采樣個數(shù) | 取值為正整數(shù)。 |
采樣比例 | 取值為浮點數(shù),范圍(0,1)。 | |
放回采樣 | 在隨機采樣過程中,每次選擇樣本后,將其放回原數(shù)據(jù)集,使得該樣本在后續(xù)的采樣中仍然有可能被再次選擇。 | |
隨機數(shù)種子 | 默認系統(tǒng)自動生成。 | |
執(zhí)行調(diào)優(yōu) | 核心數(shù) | 取值為正整數(shù),默認系統(tǒng)自動分配。 |
核內(nèi)存分配 | 取值為正整數(shù),單位為MB,范圍(1, 65536),默認系統(tǒng)自動分配。 |
方式二:PAI命令方式
使用PAI命令配置隨機采樣組件參數(shù)。您可以使用SQL腳本組件進行PAI命令調(diào)用,詳情請參見場景4:在SQL腳本組件中執(zhí)行PAI命令。
PAI -name RandomSample
-project algo_public
-Dlifecycle="28"
-DoutputTableName="test2"
-Dreplace="false"
-DsampleSize="500"
-DinputPartitions="pt=20150501"
-DinputTableName="bank_data_partition";
參數(shù)名稱 | 是否必選 | 默認值 | 參數(shù)描述 |
inputTableName | 是 | 無 | 輸入表的名稱。 |
inputTablePartitions | 否 | 無 | 輸入表中,參與訓(xùn)練的分區(qū)。支持以下格式:
說明 指定多個分區(qū)時,分區(qū)之間使用英文逗號(,)分隔,例如name1=value1,value2。 |
outputTableName | 是 | 無 | 輸出結(jié)果表。 |
sampleSize | 否 | 無 | 采樣個數(shù)。 說明
|
sampleRatio | 否 | 無 | 采樣比例,浮點數(shù),范圍(0,1)。 |
replace | 否 | false | 是否放回,BOOLEAN類型。 |
randomSeed | 否 | 系統(tǒng)自動分配 | 隨機數(shù)種子,取值范圍為正整數(shù)。 |
lifecycle | 否 | 無 | 輸出表的生命周期,取值范圍為[1,3650]。 |
coreNum | 否 | 系統(tǒng)自動分配 | 計算的核心數(shù)目,取值范圍為正整數(shù)。 |
memSizePerCore | 否 | 系統(tǒng)自動分配 | 每個核心的內(nèi)存(單位是MB),取值范圍為(1, 65536)。 |