數據質量是數據分析結論有效性和準確性的基礎。本文為您介紹數據質量保障教程的業務場景以及如何衡量數據質量的高低。
前提條件
在開始本教程前,請您首先完成搭建互聯網在線運行分析平臺教程,詳情請參見業務場景與開發流程。
業務場景
要保證業務數據質量,首先您需要明確數據的消費場景和加工鏈路。
本教程使用的數據來源于某網站上的HTTP訪問日志。基于這份網站日志,您可以統計并展現網站的瀏覽次數(PV)和獨立訪客(UV),并能夠按照用戶的終端類型(如Android、iPad、iPhone、PC等)和地域分別統計。
在整體數據鏈路的處理過程中,為保證最終產出數據的質量,您需要對數據倉庫ODS、CDM和ADS層的數據分別進行監控。數據倉庫分層的定義請參見數倉分層。本教程基于搭建互聯網在線運行分析平臺教程,ods_user_trace_log、dw_user_trace_log、rpt_user_trace_log分別代表數據倉庫的ODS、CDM和ADS層。
數據質量的評估
數據質量可以從完整性、準確性、一致性和及時性共四個角度進行評估,詳情請參見數據質量評估標準。在本教程中,您將學會通過數據質量風險監控,保證數據的完整性、準確性、一致性;通過數據及時性監控,保證數據的及時性。
完整性
完整性是指數據的記錄和信息是否完整、不缺失。數據的缺失包括數據記錄的缺失(表行數異常)和記錄中某字段信息的缺失(字段出現空值)。在本教程中,您需要重點關注數據的生產環節(MaxCompute外部表引用的表格存儲數據)和加工環節(數據倉庫CDM及ADS層)中表行數是否大于0、表行數波動是否正常以及字段是否出現空值或重復的情況。
準確性
準確性是指數據記錄中信息和數據是否準確、不存在錯誤或異常。例如,在本教程中,如果UV、PV數值小于0,則明顯是錯誤數據。
一致性
對于不同的業務流程和節點,同一份數據必須保持一致性。例如表
province
字段中如果有浙江、ZJ兩種表述,在您group by province時會出現兩條記錄。及時性
及時性主要體現在最終ADS層的數據可以及時產出。為保證及時性,您需要確保整條數據加工鏈路上的每個環節都可以及時產出數據。本教程將利用DataWorks智能監控功能保證數據加工每個環節的及時性。