日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

IDMapping在離線一體化解決方案

(一)背景介紹

對于幾乎所有的互聯網企業,對于識別、追蹤用戶身份都有強烈的需求,精準識別用戶身份后,就可以收集用戶個性化的行為、身份數據,比如用戶瀏覽了什么商品,看了什么視頻,去了哪個餐廳等等,從而可以對搜索,廣告,推薦等等場景做出精準、個性化的展現。

(二)IDMapping技術路線

1、業務調研

適用的業務體系,以阿里巴巴集團為例,涉及到多個場景需要使用IDMapping

1)跨域賬號打通:阿里集團幾十個APP 賬號打通,進行聯合建模或者空間探查,定位到同一個自然人。為后續的營銷推薦提供最基礎和核心的人員定位。

2)同人識別:營銷風控、風控策略,例如阿里云新人權益、平臺大促黃牛賬號拉新判定。

3)設備賬號轉換:廣告場景-站外投放:用戶增長按流量來源可分為一方和三方:三方是指在站外媒體投放廣告,將外部媒體的流量資源引入自身平臺;而一方是指在手淘內部做用戶轉化,如發push、促交易等。

2、數據梳理

跟進業務場景和業務數據情況進行整體的梳理,首先需要確定核心數據:用戶ID和設備ID、用戶與設備關系數據。業務方根據當前埋點數據進行抽取和盤點;在梳理的過程中可能遇到的數據問題:數據不完整、弱關系,沒有直接關系的數據,是否通過多種數據關系進行關聯和挖掘。對數據源進行細致梳理過程,可將數據源的表名、數據描述、抽取原則、數據量級、ID選取、特征選取等細節信息匯總起來,待數倉架構時作為設計依據;

完成數源梳理后,大體解決了數據從哪里來的問題,該如何抽取的問題,接下來需要進行數倉架構、數據流程和初步模型的設計工作。

3、數倉架構建設

主要涉及數據接入層和清洗層,需要將原始表信息接入并指定多種規則進行清洗。ID關系收集、特征收集、數據抽取、粗清洗等ETL處理;基于阿里云大數據平臺產品,底層大數據平臺MaxCompute

(三)GraphCompute在離線架構

在離線架構以GraphCompute引擎和圖算法為中心,可以無縫對接底層數據處理層MaxCompute,承接上層業務的查詢能力提供在線服務層。

image.png

(四)技術實現細節

整個技術方案分為三部分:

第一部分是數據梳理和圖算法運行,根據數據挖掘相關子圖信息,進行離線聚合。目前GraphCompute提供多種經典的圖算法功能。

  • 社區發現

    • louvain:可以指定seed高置信度的設備權重,減少它們被合并的概率

    • Weakly Connected Components:通過為關聯邊增加權重值(活躍程度、置信程度、最近登錄等)增加劃分的準確率,協助區分設備更換、賬號公用等場景

  • 相似度計算

    • 在沒有強關聯信息的情況下,使用弱關聯媒介計算賬戶之間的相似度,評估相同自然人使用的可能性

第二部分是數據輸出,產出強關聯性的賬號信息,同時擴展實時在線的弱關系挖掘和已有ID掛靠。

第三部分是根據用戶設備的關系,進行在線圖的服務搭建,提供離線圖算法結果的查詢和在線弱關系的在線挖掘。

image.png

(五)方案技術優勢

1、在離線一體化方案

將業界傳統的T+1離線方案直接升級為24小時實時IDMapping關聯能力。針對實時判定場景,提供的一體化數據生成、產出到查詢鏈路。

同時,可提供專家經驗,配合業務將IDMapping能力從0到1的梳理和落地。

2、提供中臺級數據服務能力

基于阿里云大數據平臺,提供中臺數據架構的服務能力。

首先,配合MaxCompute數倉,基于智能運維系統,將離線計算與在線實時計算結合落地的方案。

其次,提供多種業務數據查詢能力,可提供向量、倒排、復雜圖查詢,讓業務使用更靈活。

最后,基于離線、在線一體化方案,可配合業務自行選擇,賦能多種業務,如營銷推薦(T+1)、實時風控(24小時實時)。

3、更好的圖算法經驗:

相比SparkX的解決方案,阿里云圖計算團隊提供更好的圖算法經驗。在社區發現、聯通子圖基于阿里達摩院和安全團隊經驗輸出,提供最佳的解決方案。

4、弱關系挖掘能力

針對沒有特定強關聯的數據,我們也提供一些解決方案,如多因素(規則)進行綜合考慮與判定、將非確定條件中的屬性進行相似的關聯關系計算(向量計算、地理位置計算等手段),將各種真實數據的復雜情形做一些量化方法的轉換。

(六)應用場景和業務結果

基于IDMapping構建全域的用戶畫像

image.png

這一套GraphCompute高質量用戶表產出后,業務可完成相應標簽能力的完善:

1)事實標簽:既定事實,從原始數據中提取。例如用戶設置的性別、出生日期和地理位置等。

2)統計標簽:基于業務口徑定義的標簽,在一定周期內,業務行為的表現。例如近一個月登錄天數。

3)預測標簽:使用算法產生的標簽,該標簽定義用戶對相關業務的偏好程度,對應應該有該標簽的預測的score,例如基于用戶行為預測的性別、年齡等。

4)營銷標簽:也叫模型標簽,端到端的分析模型,例如購買力。

使用和落地的場景:

1)分類別營銷推薦

通過多渠道進行以細分市場為中心的跨屏營銷,提升消費者的滿意率、挖掘關鍵客戶。在所有這些細分市場中,按年紀、購買力從低到高進行劃分,低購買力將獲得折扣,而高購買力將獲得奢侈品和高質量的書籍、或者商品。

2)用戶優惠判定,營銷收益更高

減少對同一用戶的優惠券,從而可以投資于其他買家以推動業務目標,避免賣家創建多個帳戶并使用虛假詳細信息濫用補貼。在新人優惠券場景中,需要以OneID的維度計算解決重復權益發放的問題,初步計算可以節省8%的預算,并且大量是當日注冊多個賬號。

3)挖掘潛在客戶,鎖定客戶轉化

將全域IDMapping用戶數據,結合用戶的行為習慣做關系分析。