julia人妻中文字幕在线,日韩在线视频一区二区三,欧美性久久久久久

一、基礎統計分析

選擇任務類型：基礎統計分析，選擇相應的用戶數據表，填寫任務名稱。

分區字段：選擇相應的ds字段，分區字段顯示有兩種形式yyyymmdd與yyyy-mm-dd，可下拉選擇顯示的樣式。

Tag字段：可選擇需要分析到的字段（例如：city等）。

Tag字段分隔符：選擇需要的Tag字段的分隔符（如：，）。

KV字段：選擇為KV類型的字段（如：對用戶偏好品類的描述，數碼:0.9,家裝:0.6,鞋服:0.3,……），會對key的數量以及value的分布進行分析，如若沒有可以不選擇。

KV字段分隔符：指定每組KV數據的分隔符（如：，）。

Text字段：選擇Text類型的數據，（如：文章的標題、摘要等），如若沒有標題可以不用選擇。

字符串類型默認值：對字符串類型字段的數據設置默認值（如：""）。

字符串類型空值：指定了在何種取值下判斷為空值，將用于空值數/率的統計（如：空格）。

數據百分位分布：指定需要分析哪些位置的數據取值（如50%代表中位數），如查看多組數據以逗號隔開（如：25%,50%,75%,……），數據百分位分布默認統計的百分位數為：0%,1%,25%,50%,75%,99%,100%。

周期運行：默認選擇否，如果不對數據表進行周期分析，此時點擊保存并計算后，進入指定重跑任務的業務時間頁面，業務時間默認為最近7天，如果想看到其他時間的數據選擇相對應的時間即可，此時點擊確定即可進行數據診斷任務；若需要進行周期任務，周期運行選擇是，對周期運行任務進行配置。

說明

統計特征的數據總量、取值數、空值數、特征取值的百分位數, 特征取值頻數的的百分位數 (包括最大值, 最小值, 中位數) 統計特征的取值和取值頻數的等距分桶數據分布直方圖。
常用于分析哪些字段適合作為模型特征，而缺失率高、取值異常的特征可以丟棄。
默認會對數據導入的全部字段進行分析

當字段類型為 float，double 時，作為連續值統計其取值；

當字段類型為 string，boolean 時，作為離散值統計其取值的頻數；

當字段類型為 bigint，int 時，同時作為連續值和離散值統計，體現在會統計取值個數。

重要

業務時間，是對落盤到對應日期分區內的數據，而非統計某一天操作寫入的數據。

周期運行選擇是時，會對用戶偏好統計周期分析數據診斷任務的周期運行時間進行選擇，選擇每天運行的時間點擊保存即可。

下面用demo數據演示了基礎統計分析報告，其中展示了每天的用戶量，展示了多個bigint特征從最大值最小值、百分位數、頻數統計等多個角度的分析報表。

診斷結果中顯示空值率大于0.4，需要關注city字段。

展示每天的數據總量

唯一值統計，展示了每個字段中唯一值的數量。

百分位數統計，以年齡為例，95%的分位數是50歲，最大值是52歲，最小值是18歲。

直方圖統計，把數據分為10個桶，看每個分桶中的數量。

Top10頻數統計，以年齡為例，統計了年齡出現頻數最多的前10個年齡。

頻數百分位數，最大值是否與Top10頻數統計的最多的一致。

報告中有日期選擇的只展示了一天的數據，如果查看其他天的數據需要手動選擇日查看。

是否開啟指數模式默認為不開啟，需要手動開啟數據即可展示指數形式。

說明

默認會對數據導入的全部字段進行分析