日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

一致性檢查

功能說明

特征一致性是算法項目中常見的工程課題,指的是模型訓練的特征和在線打分的特征邏輯要一致,如果特征不一致會導致產品或應用出現打分不一致、效果異常,所以建議定期執(zhí)行特征一致性檢查任務,避免因特征不一致導致的效果下跌問題。

本功能用于自動化進行離在線特征一致性對比工作,排查以下問題:

  • 特征名稱不一致,體現在在線的特征名稱與離線的特征不匹配

  • 特征類型不匹配, 相同的特征名稱,在線離線類型不匹配

  • 特征缺失, 在線的特征缺失,或者沒有構造出相應的特征。傳入的上下文特征沒有,或者在線服務沒有構造出相關特征

  • 特征值不匹配,在線的特征值的處理邏輯或者方法與離線的構造不一致

  • 模型的特征處理邏輯有誤,processor在打分之前,如果需要對特征的處理,比如EasyRec,這塊特征處理涉及特征加載、特征默認值、特征的衍生(FG特征)。這里通過開啟EasyRec Processor debug模式,獲取生成的特征,來做進一步的對比

對比流程

流程圖

image.png

流程說明

第一步:控制臺創(chuàng)建一致性檢查任務開啟任務

要進行特征一致性對比,首先要在控制臺(推薦全鏈路服務平臺->排查工具->一致性檢查)啟動配置好的任務。

在啟動一致性檢查任務時,配置中心會先根據任務配置檢查和創(chuàng)建執(zhí)行任務所必要的資源,它們用于處理特征日志和模型日志。資源成功創(chuàng)建后,配置中心會增加服務參數。至此,任務成功開啟。

第二步:PAI-REC引擎獲取任務參數

PAI-REC引擎通過配置中心SDK獲取最新的配置中心服務參數,從中得到已開啟的特征一致性檢查任務的參數。

第三步:特征日志落盤和配置中心獲取日志

PAI-REC引擎得到已開啟的特征一致性檢查任務的參數后,將服務過程中產生的特征日志落盤至MaxCompute中。

同時配置中心獲取到特征日志。

第四步:配置中心調用 PAI-REC 引擎特征重放 API

配置中心在獲取到特征日志的同時,根據獲得的特征日志,按任務設置的比例,批量地調用 PAI-REC引擎特征重放API( 特征重放:指的是帶著上面PAI-REC引擎落盤的特征,再請求一次PAI-REC引擎的另外一個接口,這個接口是專門用來開啟模型服務的debug模式的 )。

第五步:PAI-REC 引擎調用 EAS 模型

PAI-REC引擎接受到請求后,以debug模式調用EAS模型服務,在此過程中生成模型的debug信息,debug信息中包含了模型fg前后的所有特征信息 。

第六步:返回模型的debug信息

EAS模型服務中生成模型的debug信息返回PAI-REC引擎中,生成模型的debug日志。

第七步:日志落盤

PAI-REC引擎生成模型的debug日志落盤至MaxCompute中。

第八步:特征日志作為離線樣本預測

取到MaxCompute中的特征日志,將特征日志作為離線樣本進行預測。

第九步:將離線特征與在線特征進行對比

取到MaxCompute中的模型日志,將模型日志中的在線特征與離線預測結果中的離線特征進行離在線的特征對比,生成一致性檢查任務的檢查結果。

使用說明

1. 配置特征一致性檢查任務

前置條件

在配置特征一致性檢查任務前需要添加所需的數據源,包括MaxCompute和模型EAS數據源。如果需要輸出結果至OSS,那么還需要添加OSS數據源。

如何添加數據源參考: 元數據管理操作參考文檔鏈接

操作步驟

點擊側邊欄中一致性檢查,進入特征一致性檢查任務管理頁面,創(chuàng)建任務或編輯已有任務。

image.png

image.png

image.png

image.png

創(chuàng)建一個一致性任務:

image

要填寫的信息包括:

  • 任務名稱:自定義名稱

  • 關聯(lián)場景:關聯(lián)的推薦場景,可下拉選擇,選擇的場景需要和引擎中所使用的配置場景是一樣的,還需要與請求體里的場景一一對應

  • 采樣比例:調整采樣數量,最大為 100%。設置較小的采樣率可以減輕任務對服務產生的QPS壓力,例如當QPS=10的時候,設置10%的采樣率,每秒鐘只采樣一條推薦請求的日志

  • 數據回落地址:選擇想要回落的相應的MaxCompute的project

  • PAI-EAS模型服務名稱:引擎對應所用到的EasyRec Processor服務名稱,需要從對應的模型中獲取一些參數,例如:OSS的模型地址、算法名稱等

  • fg_json文件名稱:DataWorks MaxCompute 中用于模型訓練的 fg 文件名稱

  • user特征表:選擇需要用到的user特征數據表

  • user_id字段:選擇的user特征表的user_id字段,也是表的主鍵

  • user表分區(qū)字段:選擇相應的ds字段,分區(qū)字段顯示有兩種形式yyyymmddyyyy-mm-dd,可下拉選擇顯示的樣式

  • item特征表:選擇需要用到的item特征數據表

  • item_id字段:選擇的item特征表item_id字段,也是表的主鍵

  • user表分區(qū)字段:選擇相應的ds字段,分區(qū)字段顯示有兩種形式yyyymmddyyyy-mm-dd,可下拉選擇顯示的樣式

  • 是否需要特征比對:默認選擇是,如果選擇否模型的詳細特征原則不會顯示

  • 推薦服務名稱:選擇需要用到日志回放的服務名稱(推薦服務名稱,是從系統(tǒng)配置中服務管理來的)

  • 是否需要生成zip包:默認選擇否,如果不需要生成zip包,此時點擊確定任務創(chuàng)建成功;如果需要生成zip包,選擇是后,填寫相關對應的信息,包括選擇OSS Bucket,填寫工作流名稱、自定義EasyRec版本、自定義EasyRec包路徑、自定義fg_jar版本、特征優(yōu)先級與特征展示過濾后,點擊確定任務創(chuàng)建成功。

image

  • 特征優(yōu)先級:此參數中的特征優(yōu)先從特征表中查詢,特征表中特征為空,則從行為表中查詢,多個特征用逗號分隔。

  • 特征展示過濾:在一致性任務完成之后,進行特征對比時,會在顯示的過程中將某些特征過濾掉。

  • 自定義EasyRec版本:如果 eas 服務上已經部署了最新版本的 EasyRec,這里也可以指定一下版本,供離線時使用

  • 自定義 EasyRec包路徑:支持oss和odps資源兩種路徑, oss路徑形如:oss://{bucket_name}/xxx/easy_rec_ext_{version}_res.tar.gz,odps資源路徑形如:odps://{project_name}/resources/easy_rec_ext_{version}_res.tar.gz

  • 自定義fg_jar包名:形如 fg_on_odps-{version}-jar-with-dependencies.jar

說明

注:在創(chuàng)建一致性檢查任務前,需確保user表與item表為當天的數據。

2. 運行特征一致性檢查任務和查看結果

運行任務

在特征一致性檢查頁面,對應任務操作欄點擊運行任務來運行任務,需要填寫運行時長和運行環(huán)境(預發(fā)或生產),點擊確定后,等待任務結束,或者中途取消任務。

image.png

image.png

查看結果

在一致性檢查頁面的任務日志中,可查看任務運行情況,一般來說任務執(zhí)行的實際時長會大于設定的時間。這是因為需要額外的時間等待數據同步完成以及最后做分析。

image.png

當任務執(zhí)行成功,點擊對應日志操作欄的檢查結果來查看報表結果。

image.png

展示結果包括,Userid,Itemid,Requestid,打分差異表(按差異大小降序排序)等,點擊操作欄的特征對比可以查看對應的特征差異。

image.png

一般 ScoreDiff 的值差異在小數點后四位以外,我們就可以認為離在線的打分是一致的了。

image.png

說明

注:對item_id 來說,Online取值是‘-1024’,表示沒有取到正確的物品ID值;對title、author等字段來說,Online取值都是默認值。

Requestid欄后的篩選按鈕可對Requestid進行篩選,在Requestid這一欄,如果你覺得某個Requestid沒有問題(例如x),則可以選擇x,那么Requestid=x都會過濾掉。

image.png

image.png

3. 結果使用

若選擇了高級設置,會將生成的任務文件以壓縮包(package.zip)的方式存至 OSS,OSS 的存儲地址為高級設置中所填地址。

下面說明壓縮包如何上傳至DataWorks中手動運行任務

  1. 首先將OSS中的壓縮包下載至本地

  2. 進入DataWorks,順序點擊如下按鈕

image.png

  1. 點擊遷移助手,再點擊 DataWorks 導入

image.png

  1. 點擊右上角 新建導入任務

image.png

  1. 輸入自定義名稱,點擊上傳文件,將本地的壓縮包上傳,隨后點擊上傳確認即可

  2. 任務所在的文件夾即為在高級配置中所填寫的 workflow_name