日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

用戶畫像分析

本文為您介紹在Hologres中標簽、畫像分析場景的最佳實踐。

行業背景與痛點

畫像分析是指基于沉淀用戶的自然屬性、行為屬性、偏好屬性等屬性挖掘用戶興趣點、分析群體特征的過程。用戶畫像是刻畫出用戶個體或者用戶群體全方位特征的重要手段,能為運營分析人員提供用戶的偏好、行為等信息進而優化運營策略,為產品提供準確的用戶角色信息以便進行針對性的產品設計。畫像系統通常集用戶特征加工、畫像分析功能于一身;經過離線特征加工、維度標簽映射、載入即席分析數據等過程,提供實時人群分析、圈選能力。

畫像分析方法論已經廣泛應用于各個行業,是賦能經營策略優化、精細化運營、精準營銷的重要手段。例如以下典型場景。

  • 廣告行業:通過人群畫像洞察,實現精準廣告定向投放。

  • 游戲行業:分析高流失率客戶群,調整策略增加用戶粘性。

  • 教育行業:分析課程質量,達到增加續保率的目標。

畫像分析的工程場景往往由于數據復雜度、數據量級和查詢模式等因素導致系統可穩定性、運維性、可擴展性面臨重重困難。

  • 運維人員需要維護多套數據鏈路用于實時離線處理,陷入繁重鏈路維護工作;傳統OLAP(On-Line Analysis Processing)引擎存儲計算耦合,計算存儲不成比例場景浪費資源,系統擴容遷移成本高。

  • 運營人員需要靈活的圈選能力,單用戶描述維度多可能多達數千維度,涵蓋屬性、行為等數據模式,MOLAP(Multidimensional OLAP)產品可以毫秒響應但缺乏靈活性,ROLAP(Relational OLAP)產品靈活性好但響應時間較長,無法兼顧性能和靈活性。

Hologres解決方案

針對上述兩方面問題,基于新一代實時數倉產品Hologres的系統能力,通過配置數據鏈路、選擇插件庫、根據系統規模選擇方案步驟快速構建高性能、可擴展的系統方案。

  • 數據鏈路

    依托Hologres通常只需要維護一套數據鏈路即可實現實時、離線的數據處理,避免常見的數據不同步、數據孤島等問題,如下圖所示數據鏈路Hologres 數據集成能力方面的主要優勢如下。

    • 無縫集成DataWorks產品,通過接入配置即可解決復雜數據依賴問題,構建穩定離線數據處理加載流程。

    • 為實時寫入場景提供了基于LSM(Log-Structured Merge)結構的行存儲,與Flink進行深度融合,能夠為實時標簽、實時特征處理等場景提供穩定的性能支撐。

    • 具有聯邦查詢能力,通過外部表方式直接訪問MaxCompute、OSS、其他Hologres實例等外部數據存儲。

  • 畫像計算

    Hologres兼容PostgreSQL生態,內置函數豐富;同時,經過阿里內部及云上客戶實踐,逐步沉淀了諸多高效的畫像計算插件,如下所示。

    • 精確去重運算:RoaringBitmap函數

      Hologres原生支持了Roaring Bitmap類型,通過高效率的Bitmap壓縮算法,支持集合的交叉并等運算,支持Bitmap聚合,適合計算超高維度、基數的表,常用于去重(UV計算)、標簽篩選、近實時用戶畫像等計算中。

    • 行為數據圈人:明細圈人函數

      在行為類數據的圈人場景中,我們經常碰到這樣的情況:行為數據按照天或者小時記錄在行為表中,當需要找到一段時間內出現某些行為的用戶時,因為數據記錄成多行而沒辦法直接過濾,所以就需要使用行為表多次JOIN自己來實現過濾。例如如下場景,在記錄用戶行為明細表中找出 時間在[20210216~20210218之間 & [click購物車] & [view收藏頁]的用戶。行為明細表

      Hologres提供了bit_constructbit_orbit_match函數,能夠規避JOIN的性能負擔,簡化SQL的復雜度。函數的主要思路是通過一遍數據過濾,將uid滿足條件的集合以位數組形式存放,通過bit_match函數在位數組進行與運算實現數據過濾,示例如下。

      WITH tbl as (
      SELECT uid, bit_or(bit_construct(
        a := (action='click' and page='購物車'),
        b := (action='view' and page='收藏頁'))) as uid_mask
        FROM ods_app_dwd
      WHERE ds < '20210218' AND ds > '20210216'
      GROUP BY uid )
      SELECT uid from tbl where bit_match('a&b', uid_mask);
      • bit_construct函數:用于對表達求值并存儲在響應位數組中,比如對SQL中的a、b兩個條件,計算結果分別是[1,0], [0,0], [0,1]...

      • bit_or函數:用于將兩個位數組按位進行或運算,用來聚合uid上滿足的條件集合。

      • bit_match:用于判斷位數組是否符合某個表達式,比如計算a&b表達式[1,1] 結果為True,[1,0]為False。

    • 漏斗留存分析:漏斗函數

      漏斗分析是常見的轉化分析方法,它用于反映用戶各個階段行為的轉化率,廣泛應用于用戶行為分析和App數據分析的流量分析、產品目標轉化等數據運營與數據分析。

      窗口漏斗函數(WindowFunnel)可以搜索滑動時間窗口中的事件列表,并計算條件匹配的事件列表的最大長度。留存分析是最常見的典型用戶增長分析場景,用戶經常需要繪制數據可視化圖形,分析用戶的留存情況。通過漏斗函數、留存函數的使用,可以快速計算出用戶留存效果以及對應的轉化率,減少復雜Join開銷,提高性能。

    • 向量檢索:Proxima向量計算

      Proxima是一款來自于阿里達摩院的實現向量近鄰搜索的高性能軟件庫,相比于Fassi等開源的同類產品,Proxima在穩定性、性能等方面更為出色,能夠提供業內高性能和效果顯著的基礎方法模塊,支持圖像、視頻、人臉等各種應用場景。Hologres向量查詢功能與Proxima深度整合,提供高性能的向量查詢服務。支持快速的RNN(Radius Nearest Neighbor)搜索、KNN(K-Nearest Neighbor)搜索、dot_product向量化點積計算組件。

  • 工程方案

    在畫像系統發展的不同階段,往往對工程方案有不同的成本和性能訴求。根據實踐經驗,綜合系統數據規模、實現成本、查詢性能等三因素,總結兩種典型的工程方案如下。

    • 標簽寬表方案

      寬表標簽方案適合標簽較少(通常小于1000個),數據更新不頻繁的場景。主體思路是在離線階段把相對穩定的屬性表離線聚合成寬表,將多張表的關聯操作轉化一張寬表的運算,新的標簽列的場景通過增加列的方式實現,以表的方式提供非常靈活的標簽計算,詳情請參見畫像分析 - 標簽寬表

    • RoaringBitmap優化方案

      基于RoaringBitmap的超大規模畫像分析場景,適合數據量大,標簽規模多,需要去重處理的場景。通過結合RoaringBitmap結構化存儲,實現天然去重,避免Join開銷,降低運算復雜度,快速出結果。詳情請參見畫像分析 - RoaringBitmap優化方案

    • Bit-sliced Index優化方案

      基于BSI(Bit-sliced Index)的超大規模畫像分析,適合用戶屬性標簽(性別、省份)與用戶行為標簽(PV、訂單金額等)關聯分析的場景,對高基數(去重值數量大)的行為標簽計算有顯著優化作用。通過BSI和Roaring Bitmap,將標簽去重、UNION、JOIN等復雜計算全部轉化為BSI二進制運算與Roaring Bitmap交并差運算,降低運算復雜度,快速得出行為標簽分析結果。詳情請參見畫像分析 - BSI優化方案(Beta)

  • 小結

    Hologres通過豐富的畫像分析插件支持,和自身優異的性能,被阿里集團內部多個核心業務廣泛應用于標簽計算、畫像分析的場景,例如阿里媽媽、搜索、高德以及眾多公共云用戶使用。服務擴展能力和穩定性歷經生產考驗,這也證明Hologres是構建低開發運維成本,高穩定性擴展性畫像分析平臺的不二之選。