日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

隨機采樣

隨機采樣算法是一種從輸入數(shù)據(jù)集中提取樣本的技術(shù),依據(jù)指定的比例或數(shù)量,隨機選擇樣本以生成子集。每次采樣過程都是獨立的,確保每個樣本被選中的概率相等且不受其他樣本選擇的影響。該方法常用于創(chuàng)建訓(xùn)練和測試數(shù)據(jù)集,以保證模型評估的無偏性和代表性,特別適用于大規(guī)模數(shù)據(jù)處理。

配置組件

方式一:可視化方式

Designer工作流頁面添加隨機采樣組件,并在界面右側(cè)配置相關(guān)參數(shù):

參數(shù)類型

參數(shù)

描述

參數(shù)設(shè)置

采樣個數(shù)

取值為正整數(shù)。

采樣比例

取值為浮點數(shù),范圍(0,1)

放回采樣

在隨機采樣過程中,每次選擇樣本后,將其放回原數(shù)據(jù)集,使得該樣本在后續(xù)的采樣中仍然有可能被再次選擇。

隨機數(shù)種子

默認系統(tǒng)自動生成。

執(zhí)行調(diào)優(yōu)

核心數(shù)

取值為正整數(shù),默認系統(tǒng)自動分配。

核內(nèi)存分配

取值為正整數(shù),單位為MB,范圍(1, 65536),默認系統(tǒng)自動分配。

方式二:PAI命令方式

使用PAI命令配置隨機采樣組件參數(shù)。您可以使用SQL腳本組件進行PAI命令調(diào)用,詳情請參見場景4:在SQL腳本組件中執(zhí)行PAI命令

PAI -name RandomSample
    -project algo_public
    -Dlifecycle="28"
    -DoutputTableName="test2"
    -Dreplace="false"
    -DsampleSize="500"
    -DinputPartitions="pt=20150501"
    -DinputTableName="bank_data_partition";

參數(shù)名稱

是否必選

默認值

參數(shù)描述

inputTableName

輸入表的名稱。

inputTablePartitions

輸入表中,參與訓(xùn)練的分區(qū)。支持以下格式:

  • partition_name=value

  • name1=value1/name2=value2:多級格式

說明

指定多個分區(qū)時,分區(qū)之間使用英文逗號(,)分隔,例如name1=value1,value2。

outputTableName

輸出結(jié)果表。

sampleSize

采樣個數(shù)。

說明
  • sampleSizesampleRatio都為空時,系統(tǒng)會報錯。

  • sampleSizesampleRatio都不為空時,以sampleSize為準。

sampleRatio

采樣比例,浮點數(shù),范圍(0,1)

replace

false

是否放回,BOOLEAN類型。

randomSeed

系統(tǒng)自動分配

隨機數(shù)種子,取值范圍為正整數(shù)。

lifecycle

輸出表的生命周期,取值范圍為[1,3650]

coreNum

系統(tǒng)自動分配

計算的核心數(shù)目,取值范圍為正整數(shù)。

memSizePerCore

系統(tǒng)自動分配

每個核心的內(nèi)存(單位是MB),取值范圍為(1, 65536)