DataWorks數據治理中心可協助數據治理團隊建立數據治理框架、優化治理過程、提升治理效率,從而實現治理目標的高效突破。本文通過治理負責人的實操過程,為您介紹如何通過數據治理計劃能力,高效設定和達成數據治理目標。
環境要求
環境類型 | 說明 |
DataWorks版本 | DataWorks版本需要為企業版。
重要
|
資源類型要求 | 如需針對存儲和計算的資產治理,建議使用計算資源類型為MaxCompute或E-MapReduce。如針對研發規范性或穩定性進行治理,可支持DataWorks中現有任務類型。 |
背景信息
在多人協作的數據團隊中,數據治理是重要且繁瑣的工作,在解決“如何制定客觀的數據治理目標”、“如何高效推動團隊達成治理目標”的過程中,通常包含以下挑戰:
問題難定位:傳統數據治理方式難以快速、完整、精準地定位潛在問題,導致在長期執行治理工作時效率不高,同時未及時完成的治理也造成對數據成本的浪費。
方法不易行:數據治理人員缺乏科學的數據治理策略和工具,無法有效地開展治理活動。
成效難跟蹤:缺乏及時的數據分析和治理效果跟蹤,也無法快速根據目標達成情況調整治理策略。
數據治理中心是DataWorks中踐行主動化、自動化數據治理理念的產品模塊。為了解決以上問題,治理中心提供了多個場景化治理計劃模板,包含數據穩定性治理、存儲成本治理和計算成本治理,幫助用戶高效設定和達成數據治理目標。
模板自帶可選擇的治理目標,并配套實戰有效的治理策略和工具,加速用戶治理目標的達成過程。此外,治理計劃還提供了定期跟蹤和評估治理效果的機制,以幫助數據治理團隊了解治理效果,并不斷提升數據治理的成效,從而打造高效、科學的可持續數據治理模式。
數據治理模板 | 說明 |
數據穩定性優化 | 數據穩定性優化適用于希望高效解決現有數據運維問題的團隊。核心目標為減少任務出錯數,關注任務產出正確性和及時性。 |
存儲資源優化 | 存儲資源優化適用于存儲消耗過大或異常增長的團隊。核心目標為減少存儲量,并對數據表能按訪問熱度進行不同生命周期管理。 |
基本流程
作為數據治理計劃的負責人,在階段工作規劃和日常治理時,都離不開數據分析方法和治理工具的落地。圍繞治理目標,從制定到達成的整個過程,其步驟思路可參照下圖:
以下為您介紹典型的存儲成本優化和穩定性優化的實操案例,了解治理流程如何結合DataWorks數據治理中心工具進行落地。
存儲資源優化治理實施指南
存儲資源優化是進行成本相關數據治理時,最常見的切入點。通過數據存儲資源優化,可以有效地降低數據存儲成本,提高數據存儲的效率,控制數倉團隊的數據成本。此外,存儲資源優化還可以幫助企業更好地管理數據,提高數據的安全性和可靠性。
步驟一:明確成本治理重點,規劃數據治理工作
成本治理工作的起始階段,通常需要治理工作負責人建立一個治理框架,幫助其了解成本管理的現狀,明確階段性規劃中要治理的重點方向是什么,進而確認如何治理,以及怎樣衡量治理的成功或失敗。在進行存儲資源優化時,需要關注如何合理地降低存儲、減少備份、提高壓縮比、降低總體存儲費用,通過規則定義和治理檢查來實現高ROI的存儲治理。
以某公司數據平臺團隊的數據治理負責人為例,其負責本團隊的數據成本管理工作,同時也是DataWorks所有數倉工作空間的管理員,日常需要進行整個數據團隊的運維管理工作和成本管理工作,對數據治理相關工作進行確定和推進。
目前在年初階段,該負責人需要針對現有數據平臺的數據資源進行盤點,進行無效、低效資源分布的階段性分析,分析完成后,開始針對本年度和本季度的數據治理工作進行規劃。負責人登錄DataWorks數據治理中心,結合數據治理健康評估模型開始進行分析。
登錄DataWorks控制臺,切換至目標地域后,單擊左側導航欄的 ,在右側頁面中單擊進入數據治理中心。
DataWorks數據治理中心已根據元數據信息,通過自帶的治理經驗知識庫,對數據平臺團隊工作空間下的表、任務等資產,按治理維度進行自動化、多維度的統計分析。系統將根據知識庫中包含的治理項規則,生成潛在治理問題列表。治理負責人可查看知識庫,了解平臺的全集治理維度和具體治理問題識別規則。
目前該負責人已明確其治理維度主要處在成本治理維度,根據實際業務要求和歷史情況分析,其團隊數倉任務消耗的主要成本集中在存儲成本管理維度,核心目標是控制數據資源成本增長,重點關注無效、低效的存儲表,推動負責人進行表資源的下線和優化。治理負責人當前的核心目標是為了在不影響業務的情況下盡可能減少存儲量增量。
步驟二:選擇適合的場景化治理方案,精準定位潛在治理問題
在頂部菜單欄選擇治理工作臺,然后在左側結構樹上選擇治理計劃。
單擊新建計劃,選擇存儲資源優化,系統將自動創建該模板類型的數據治理計劃。
配置治理計劃的基本信息。
治理負責人需確認治理計劃的名稱和描述,因為該計劃主要面向團隊協作治理,建議填寫較為清晰的信息,描述清楚這個治理計劃所關注的重點。可在描述中說明本次治理的背景、目標、相關范圍和注意事項。
設定治理目標和達成周期。
核心目標:治理計劃的核心目標代表著在完成各階段治理后,所需要達成的治理效果與期望的治理量級。治理負責人需要根據存儲優化治理想達成的最終評估目標進行選定,常見選擇如“節約存儲量”,也可切換為“存儲健康分”、“治理表數量”等。
在設置核心目標時,由于存儲治理計劃會自動選取所有和存儲成本優化相關的問題識別規則,會在治理負責人權限范圍內圈定有關的問題,并根據所有問題都解決的情況下,預估該治理計劃的目標最大可達成值,并填寫為默認初始目標值。
例如,存儲治理計劃會包含治理中心當日所有和節約存儲量優化相關的治理項,共識別了300個問題,涉及100張表;
治理負責人需要根據存儲優化想直接達成的跟蹤目標進行選定,如系統根據這批表進行全量治理下的存儲收益進行預估,預計最大可節約存儲量為500 GB,那么該計劃設定的目標會默認填寫為500 GB。
治理負責人可根據實際期望以及時間階段拆分,進行目標調整設置,例如,只針對治理項“長時間未訪問”下的50張表進行下線治理,并根據系統預估的這批表的全量存儲量為300 GB,則設定選擇目標為“節約存儲量”>=300 GB。
起止日期:治理負責人需要根據實際情況設置治理計劃完成時間。例如,治理負責人本次的目標是將所有“長時間未訪問”的表全部下線,并期望15天內完成,因此直接選擇截止日期到15天后。
圈選治理內容。
如果治理負責人期望小范圍治理或精細化選擇治理內容,可自定義管理需要治理的內容項,如:
篩選僅與自己相關的待治理問題。
篩選部分重點工作空間或項目下的待治理問題。
篩選收益較大的治理項,取消預估收益不大的待治理問題。
單擊管理圈選明細,治理負責人可在治理問題明細表格中,針對需要重點治理的工作空間進行篩選,并在左下角的治理操作里進行批量圈選或取消圈選,確認后,系統會重新預估圈選項的最大治理成效,如和目標值差距較大,負責人可重新調整合適的治理目標值。
配置治理成員和進展通知。
治理成員:治理負責人確認了治理目標和相關問題后,系統已根據圈選問題自動將任務處理人填入,負責人可添加查看治理計劃并接受治理消息的成員。
進展通知:根據實際需求選中通知人、周期通知時間和通知方式,強烈建議填寫治理團隊的釘釘群、微信群或飛書群的Webhook通知地址,以便進行團隊協作式數據治理的高效推動。據以往實踐統計,以群推進治理工作,并開啟定期提醒的治理團隊可提升90%的治理效率。具體操作,請參見場景實踐:發送報警消息至釘釘群。
單擊保存并發布,治理計劃正式生效。
步驟三:充分利用治理工具,推進存儲降本高效達成
治理負責人單擊已創建的治理計劃列表操作列的治理詳情。
在治理詳情中了解目前治理進展,對需要重點優化的治理項和責任人進行查看分析。
單擊治理優化,根據具體治理需求和目標,查看收益最大的治理項問題。任務處理人及擁有問題操作權限計劃負責人,都可以在頁面中進行實際治理工作。
治理具體的問題。
可根據治理項的知識庫說明以及列表中系統推薦的治理操作,使用相應功能進行治理,提升治理活動效果和效率。如針對“長生命周期”,判斷業務側已無需使用時,可直接進行批量選擇,快速設置系統推薦的合適生命周期。針對長期無人訪問表以及產出任務,可直接優雅下線及對應的無人訪問的產出表。
當日實際已完成治理的內容項,在第二天會重新檢查,如已完成治理,會更改為“已治理”狀態,可統計及跟蹤當日具體治理收益及對治理目標的貢獻比例。
步驟四:周期數據分析和效果跟蹤
查看進行中的治理計劃。
任務處理人和計劃負責人可每日獲取數據治理計劃通知,針對當前周期的治理進展和待治理工作進行分析,并對整體計劃或個人還需要治理的問題進行及時查看和處置,以盡快達成治理目標。
單擊查看當日報告,進入治理計劃的周期報告模塊,進行治理效果分析和跟蹤。計劃負責人可查看當日數據分析報告,了解治理活動的效果和趨勢。可從全局視角查看每日數據治理報告,了解當日治理情況、目標達成情況和團隊整體工作分布。
計劃負責人和任務處理人都可根據數據分析結果,及時調整和優化治理策略,以取得更好的數據治理成效。
計劃已達成或計劃到期未達成
當任務處理人治理問題帶來的成效達到了系統預設的治理目標值,系統會自動將治理計劃置為已達成狀態,并生成整體性的治理總結,作為整個治理周期情況的分析。
如治理計劃到期,但目標仍未達成,系統會自動將計劃置為未達成狀態,同時也會生成本計劃周期整體工作的總結報告。治理負責人可針對本周期未完成的工作進行了解,復制該計劃,對未完成工作進行下一個周期的延續治理。
數據穩定性優化治理實施指南
穩定性治理是任何數據團隊進行治理工作時最關注的基礎核心,該部分工作不但關系著數據團隊對于日常研發工作的產出質量判定,也和實際客戶業務的可用性承諾緊密相關。
步驟一:明確數據治理方向,規劃數據治理工作
某治理負責人來自某公司數倉開發團隊,負責本團隊的數據管理工作,同時也是團隊對應的DataWorks工作空間的管理員,日常負責數據治理相關工作的確定和推進。目前需要針對本季度的數據治理工作進行規劃。作為治理工作負責人,他需要建立一個治理框架,幫助其團隊明確本季度要治理什么,如何治理,以及怎樣衡量治理的成功或失敗。
登錄DataWorks控制臺,切換至目標地域后,單擊左側導航欄的 ,在右側頁面中單擊進入數據治理中心。
DataWorks數據治理中心已根據元數據信息,通過自帶的治理經驗知識庫,對數據分析團隊工作空間下的表、任務等資產,按治理維度進行自動化、多維度的統計分析。系統將根據知識庫中包含的治理項規則,生成潛在治理問題列表。治理負責人可查看知識庫,了解平臺的全集治理維度和具體治理問題識別規則。
目前該負責人了解其治理維度主要處在研發治理維度,根據實際業務要求處于數倉穩定性治理階段,希望能夠最終減少數倉出錯任務數及其影響,以保障對業務側的SLA承諾。
步驟二:選擇適合的場景化治理方案,精準定位潛在治理問題
在頂部菜單欄選擇治理工作臺,然后在左側結構樹上選擇治理計劃。
單擊新建計劃,選擇數據穩定性優化,系統將自動創建該模板類型的數據治理計劃。
配置治理計劃的基本信息。
治理負責人需確認治理計劃的名稱和描述,因為該計劃主要面向團隊協作治理,建議填寫較為清晰的信息,描述清楚這個治理計劃所關注的重點。可在描述中說明本次治理的背景、目標、相關范圍和注意事項。
設定治理目標和達成周期。
核心目標:設置核心目標時,系統會對治理負責人權限范圍內有關的問題進行圈定,并預估所有問題都解決的情況下,該治理計劃的目標的最大可達成值,并默認填寫為初始目標值。例如,當日所有穩定性優化相關的治理項,識別了228個問題,則該計劃設定的目標會默認填寫為228個,并且當前可優化的問題數最大不超過228個。
起止日期:治理負責人也可以根據實際情況設置治理計劃完成時間。例如,治理負責人本次的目標是將高基線任務相關的問題全部解決,并期望15天內完成,因此直接選擇全部的228個問題都需要治理,設定選擇目標為“優化問題數”>=228個,修改截止日期到15天后。
圈選治理內容。
如果治理負責人期望小范圍治理或精細化選擇治理內容,可自定義管理需要治理的內容項,如:
篩選僅與自己相關的待治理問題。
篩選某些重點治理的工作空間或項目下的待治理問題。
篩選收益較大的治理項,取消預估收益不大的待治理問題。
單擊管理圈選明細,針對個人場景進行篩選,您可以在左下角的治理操作里進行批量圈選或取消圈選,然后系統會重新預估圈選項的預估成效,如差距較大,治理負責人可重新設置治理目標值。
配置治理成員和進展通知。
治理成員:治理負責人確認了治理目標和相關問題后,系統已根據圈選問題自動將任務處理人填入,負責人可添加查看治理計劃并接受治理消息的成員。
進展通知:根據實際需求選中通知人、周期通知時間和通知方式,強烈建議填寫治理團隊的釘釘群、微信群或飛書群的Webhook通知地址。據以往實踐統計,以群推進治理工作并開啟定期提醒的治理團隊可提升90%的治理效率。具體操作,請參見場景實踐:發送報警消息至釘釘群。
單擊保存并發布,治理計劃正式生效。
步驟三:充分利用治理工具
治理負責人單擊已創建的治理計劃列表操作列的治理詳情。
在治理詳情中了解目前治理進展,對需要重點優化的治理項和責任人進行查看分析。
單擊治理優化,根據具體治理需求和目標查看收益最大的治理項問題。任務處理人及擁有問題操作權限計劃負責人,都可以在頁面中進行實際治理工作。
查看具體的問題。
可根據治理項的知識庫說明以及列表中系統推薦的治理操作,使用相應功能進行治理,提升治理活動效果和效率。如針對“暫停節點”和“連續7天出錯節點”,判斷業務側已無需使用時,可直接進行批量選擇,優雅下線,整個下線的判斷和處理流程都可全自動化進行。
當日實際已完成治理的內容項,在第二天會重新檢查,如已完成治理,會更改為“已治理”狀態,可統計及跟蹤對當日具體治理收益及對治理目標的貢獻比例。
開啟檢查項的主動攔截。
除了對存量問題的治理,作為工作空間的管理員,還需要進行增量數據治理問題的事前管控,避免在存量治理目標需要達成的情況下又出現新的問題。數據治理中心通過配置檢查項,進行增量治理問題的管控,作用于數據開發和數據提交的研發環節。
針對不同的治理目標,系統推薦啟用的檢查項也是不同的。面向穩定性治理場景,系統會推薦和數據規范性、準確性、運行穩定性相關的研發維度檢查項,如下:
治理負責人可在治理概覽中,查看到可推進開啟的檢查項,并進入對應管理的工作空間,按需進行開啟。開啟后,負責人可了解到在這個周期中主動校驗和攔截的問題數,從而跟進主動治理的成效。
步驟四:周期數據分析和效果跟蹤
查看進行中的治理計劃。
任務處理人和計劃負責人可每日獲取數據治理計劃通知,針對當前周期的治理進展和待治理工作進行分析,并對整體計劃或個人還需要治理的問題進行及時查看和處置,以盡快達成治理目標。
單擊查看當日報告,進入治理計劃的周期報告模塊,進行治理效果分析和跟蹤。計劃負責人可查看當日數據分析報告,了解治理活動的效果和趨勢。可從全局視角查看每日數據治理報告,了解當日治理情況、目標達成情況和團隊整體工作分布。
計劃負責人和任務處理人都可根據數據分析結果,及時調整和優化治理策略,以取得更好的數據治理成效。
計劃已達成或計劃到期未達成
當任務處理人治理問題帶來的成效達到了系統預設的治理目標值,系統會自動將治理計劃置為已達成狀態,并生成整體性的治理總結,作為整個治理周期情況的分析。
如治理計劃到期,但目標仍未達成,系統會自動將計劃置為未達成狀態,同時也會生成本計劃周期整體工作的總結報告。治理負責人可針對本周期未完成的工作進行了解,復制該計劃,對未完成工作進行下一個周期的延續治理。
總結
通過上述步驟操作,數據治理相關用戶可充分利用數據治理中心的能力,實施數字化治理策略,打造可持續運營的數據治理管理體系,從而達成提效的目的:
提升數據治理人員精準定位潛在問題的效率
提升數據治理人員解決問題的效率
提升數據治理負責人員對治理成效分析統計的效率
在數據治理的時代,數據治理中心將為企業提供更加專業、靈活、高效的數據治理方案,為企業數據管理帶來新的思路和新的變革。目前,我們針對內置的場景化數據治理模板還在繼續更新,從而滿足更準確可靠的治理目標以及更安全自動的治理操作。
聯系我們
如果您在使用過程中有任何疑問或需要進一步支持,歡迎加入釘群聯系我們。