AIOps 解決方案專家服務內容說明
1.服務概述
1.1.服務說明
隨著云計算的不斷發展、普及,越來越多的企業不斷加深了對云的了解,并積極的落地云化改造,趨勢已經從上云逐漸轉變為用好云。面對云上甚至多云的復雜業務系統,運維人員經常會遇到技術棧繁雜、配置告警耗時長、設置指標告警遺漏、告警風暴以及故障定位耗時等一系列運維問題,最終可能導致嚴重的資損。
智能運維又稱AIOps,即人工智能與運維相結合,可通過機器學習的防范來提升運維效率。它提供:時序指標異常診斷、根因分析、資源編排、故障自愈等能力。常見的AIOps應用路徑為:對監控的各種關鍵性能指標(KPI)行實時異常檢測;對多維指標進行根源分析,快速下鉆到異常維度和元素;基于應用拓撲和實時Trace,實現根因定位;結合CMDB、關聯等、構建異常根因上下文,幫助快速修復問題等等。
AIOps解決方案專家服務主要圍繞企業AIops的技術需求提供對應的解決方案支持及咨詢服務,依托阿里巴巴多年AI能力沉淀,以及阿里云專家經驗,通過算法對監控指標進行建模與實時智能分析,當業務異常發生時,實時進行告警關聯分析與收斂,幫助用戶減少故障影響時間(MTTR),提高用戶業務穩定性。它融合“人工智能+大數據+云計算”能力,支撐全棧式IT運維管理,以場景為導向,以保障業務的連續性為目標,助力企業運維進入智能化時代、提升整體效能。
AIOps解決方案專家服務覆蓋了包括時序趨勢預測,風險異常巡檢,智能診斷AI監測,智能根因推薦等多個能力。著力解決客戶運維體系分散,運維手段傳統,運維效率低下,資源利用率低等問題,打通底層基礎設施到上層應用的全棧監控和運維操作,同時具有多場景聯動的智能運維能力,實現機器運維機器的目標。具體項目也可與甲方實際需求進行適當調整。
2.服務范圍
2.1.咨詢版服務范圍
一個咨詢包包含連續10個工作日的AIOps解決方案設計服務,服務方式為遠程。服務內容如下:
業務架構調研
以調研表、訪談等多種方式快速調研和分析應用技術棧現狀,資源使用情況,AIOps可行性進行評估。確定業務系統數量、優先級和策略。基于評估的結果,給出云上技術選型建議。
智能故障發現解決方案
基于調研與評估的結果,為客戶設計智能故障發現解決方案,包含:多賬號統一監控數據接入,并根據應用分組為客戶設計AI算法能力用于實時故障發現,并根據分析結果智能定位根因,提供實時異常檢測的穩定性方案,保障客戶業務穩定性。
定制化業務風險巡檢方案
基于阿里云業務資源和技術能力,為客戶定制化設計業務風險巡檢方案。包含:定制化業務風險巡檢能力架構,以及基于架構的具體業務風險場景實現方案。
本服務不包含:
方案設計主要集中在技術組件層面,不深入到業務做詳細分析,不按照每個系統單獨設計應用遷移方案。
咨詢服務是以客戶當前系統在阿里云上為基礎的技術方案設計和服務,不負責客戶全局的云化架構咨詢,如此類需求請單獨購買云化架構咨詢服務,不負責代碼開發與診斷。
甲方不應限制服務方式,乙方按照項目需要通過現場或遠程方式進行詳細調研以及咨詢方案設計,并產出最終結果。
乙方不負責提供除阿里云官方文檔、智能故障發現解決方案、定制化業務風險巡檢方案設計之外的任何技術文檔。
乙方不負責甲方業務系統規劃、架構設計、應用過程中的任何實施與維護責任。
乙方不負責非阿里云平臺以外(第三方軟件、應用系統)問題處理、技術的支持和答疑工作。
方案完成之后的具體實施等工作不在咨詢服務范圍之內。
2.2.基礎版服務范圍
一個基礎包包含連續10個工作日的AIOps解決方案協助實施服務,服務方式為遠程,但是乙方會結合項目需求,提供不超過1次,每次不超過2人天的現場支持。
基于咨詢服務的結果,支持客戶選定AIOps方案工作,工作內容具體包含:
協助開通云資源、云賬號、完成智能故障發現解決方案、定制化業務風險巡檢方案
提供技術支持、方案實施中關于方案本身遇到的問題排查與解決方案
協助進行應用接入工作,幫助客戶實現應用快速接入AIOps解決方案產品中
本服務不包含:
本服務不承諾提供任何交付物,以服務周期為期限,服務時間到期則服務終止
乙方服務過程中不負責甲方應用的部署、應用代碼的改造、數據代碼改造、數據遷移等具體的實施工作,具體的實施工作由甲方執行,在實施過程中乙方只負責提供技術支持和指導,并協助甲方解決阿里云產品使用相關的問題
乙方不為具體進度負責,由甲方原因導致的進度不符合預期,乙方不承擔延期責任
2.3.標準版服務范圍
一個標準包包含連續10個工作日的協助實施服務,服務方式為現場。
基于咨詢服務的結果,支持客戶選定AIOps方案工作,工作內容具體包含:
協助開通云資源、云賬號、完成客戶智能故障發現解決方案、定制化業務風險巡檢方案
提供技術支持、方案實施中關于方案本身遇到的問題排查與解決方案
協助進行應用接入工作,幫助客戶實現應用快速接入AIOps方案產品中
可選單獨購買線下輸出平臺和可視化平臺,助力客戶本地化部署
本服務不包含:
本服務不承諾提供任何交付物,以服務周期為期限,服務時間到期則服務終止
乙方服務過程中不負責甲方應用的部署、應用代碼的改造、數據代碼改造、數據遷移等具體的實施工作,具體的實施工作由甲方執行,在實施過程中乙方只負責提供技術支持和指導,并協助甲方解決阿里云產品使用相關的問題
乙方不為具體進度負責,由甲方原因導致的進度不符合預期,乙方不承擔延期責任
3.前提條件
甲方應提前至少15個工作日申請該服務,以便于阿里云評估甲方業務目標及時間計劃可行,確認是否承接該服務申請。
甲方應及時向乙方提供所有需要的合理的文檔、信息、數據、圖表以及必要的系統權限、遠程訪問通道以使乙方可以提供服務。且所有這些資料將受到本協議項下的保密條款的約束。甲方同意向乙方已披露的或將要披露的所有信息是真實、準確并且不會產生誤導。
本項目提供的咨詢服務,乙方的辦公地點不受項目約束,服務的提供方式主要以:電話、釘釘、郵件等方式。
本項目交付過程中,實施主體為甲方,乙方主要提供方案設計以及實施過程中的問題處理,具體的應用部署和測試動作需要由甲方進行。
雙方在項目實施期間采用雙方同意的通訊方式,由雙方的項目經理負責傳遞本項目所需的書面信息,可選擇的通訊方式包括:釘釘、互聯網、電子郵件等。
所有項目交付物為中文(簡體),工作語言為中文。所有交付作品采用MicrosoftOffice(包括PowerPoint,Word,Excel,Visio)格式,并以電子拷貝方式提交。
甲方與乙方應須按雙方事先達成一致的工作計劃、人員資源計劃與書面確定的工作起止日期投入項目工作。如遇到甲方相關業務系統迭代延期上線,相關項目進度將會產生順延,乙方對此不承擔責任。
任何一方均不對本項目下的特殊、附帶、或間接損害或后果性經濟損害(包括利潤或節省金額損失)負責,即便該方已被告知該等損害賠償的可能性。
客戶作為運維主體,需進行自身業務相關的運維工作。
4,分工邊界
4.1.客戶與阿里云
雙方商定并確認具體業務目標及范圍。
合同簽訂完畢,完成付費。
4.2.各階段工作的雙方職責
根據項目計劃的階段任務工作,雙方在不同階段需要承擔不同的分工以順利推進項目進行。
項目階段 | 甲方 | 乙方 |
項目準備階段 | 1.指定一名具備合適技能和經驗的項目經理作為與乙方溝通的主要聯系人,代表甲方直接負責項目實施的計劃、協調、監督與控制以及升級問題與風險,同時全權代表甲方在本項目的各個方面做出決策 2.項目經理應協同乙方人員針對項目準備階段的所有事項(見本工作說明書《3 前提條件》)進行確認 3.辦公環境準備與人員出入許可權限批準 4.管理甲方項目組相關人員且和各階段需投入人員進行溝通交流并取得投入項目的承諾與時間 5.管理甲方項目組相關人員 | 1.指派一名有經驗的項目經理執行項目管理,并引入、管理乙方項目組人員,與甲方項目經理溝通 2.針對項目準備階段的所有事項(見本工作說明書《3 前提條件》)提出方案與計劃與甲方項目經理進行確認并書面記錄在案 |
現狀調研階段 | 1.根據項目計劃與訪談計劃,組織關鍵用戶參與調研訪談 2.根據乙方調研需求提供現有業務概況,如系統、應用、數據、組織結構、人員分工等作為乙方評估調研評估輸入 3.確認乙方的AIOps策略與風險控制策略 4.指定驗收人負責審核乙方交付物并提供反饋與確認驗收 | 1.提供訪談計劃并根據訪談結果評估現有基礎設施、應用架構、應用依賴關系 2.根據評估結果提出AIOps策略與風險控制策略,并與甲方達成協議 3.根據甲方驗收反饋確保最終交付物符合驗收標準 |
方案設計階段 | 1.配合乙方進行AIOps方案設計 2.相關方案的整體設計 3.指定驗收人負責審核乙方交付物并提供反饋與確認驗收 | 1.根據服務范圍,結合客戶具體場景進行AIOps方案設計 2.根據甲方驗收反饋確保最終交付物符合驗收標準 |
方案協助實施階段 | 1.協助乙方驗證方案的可行性,為方案驗證提供必要的業務輸入、資源、環境等, 并配合進行具體的代碼改造和實施工作 2.指定驗收人負責審核乙方交付物并提供反饋與確認驗收 | 1.協助并指導甲方開通或購買云資源以及完成基礎架構搭建與配置 2.提供AIOps解決方案的實施支持,問題排查與解決方案 3.按照AIOps解決方案搭建驗證Demo 4.按照AIOps標準提供售后培訓服務 |
備注:咨詢版本包含準備階段、調研階段、設計階段。基礎/標準版本包含準備階段、調研階段、設計階段、實施階段。
5.服務目錄
服務內容:AIOps解決方案專家服務針對客戶的業務目標,包含以下服務:
階段名稱 | 服務目錄 | 咨詢服務 | 服務基礎版 | 服務標準版 |
現狀調研 | 系統調研評估 | 支持 | ||
方案溝通與計劃 | 支持 | |||
方案設計 | 智能故障發現解決方案 | 支持 | ||
定制化業務風險巡檢方案 | 支持 | |||
AIOps方案實施支持 | 智能故障發現解決方案實施支持 | 支持 | 支持 | |
定制化業務風險巡檢方案實施支持 | 支持 | 支持 | ||
AIOps方案現場部署 | 智能故障發現解決方案線下輸出 | 支持 | ||
定制化業務風險巡檢方案線下輸出 | 支持 |
備注:服務基礎版和標準版的服務內容基本一致,區別在于基礎版為遠程支持,標準版為現場支持以及可以單獨購買線下輸出方案。
5.1.服務內容
AIOps解決方案專家服務 | |||
序號 | 服務內容大類 | 服務描述 | 交付物 |
1 | 業務架構調研 | 企業在使用云的過程中所使用的資源、業務現狀和應用系統核心邏輯進行充分調研的服務。調研的服務范圍包含:基礎資源調研、業務現狀調研、應用系統調研 | 《調研報告》 |
2 | 智能故障發現方案設計 | 基于業務數據、資源組維度建立業務組單元,將業務組單元指標通過智能AI算法進行實時分析,幫助企業快速發現故障,列出可疑根因事件,并根據故障定位算法,給出可疑程度排序。根據智能AI算法和阿里多年積累的AIOps經驗,在故障發生后,提供自動化解決方案。在方案設計中我們提供包括時序預測和根因分析、歷史數據預測的3大類算法場景的設計,更多具體算法詳見《10.1算法列表》 | 《智能故障發現設計方案》 |
3 | 定制化業務風險巡檢方案設計 | 基于阿里云業務資源和技術能力,為企業定制化業務風險巡檢能力架構設計,以及基于架構的具體業務風險場景實現方案。并提供2個電商業務應用風險巡檢場景設計用于提升客戶自定義風險場景實施能力。具體參考《10.2風險場景列表》 | 《定制化業務風險巡檢設計方案》 |
AIOps解決方案基礎版服務 | |||
序號 | 服務內容大類 | 服務描述 | 交付物 |
4 | 智能故障發現方案實施 | 基于咨詢服務設計方案提供實施方案,協助企業實現應用快速接入AIOps方案產品中 | 《智能AI檢測實施方案》 |
5 | 定制化業務風險巡檢方案實施 | 基于咨詢服務設計方案提供實施方案,協助企業實現應用快速接入AIOps方案產品中 | 《定制化業務風險巡檢實施方案》 |
AIOps解決方案標準版服務 | |||
序號 | 服務內容大類 | 服務描述 | 交付物 |
6 | 智能故障發現現場實施 | 基于咨詢服務提供實施方案,幫助企業實現應用快速接入AIOps方案產品中 | 《智能AI檢測實施方案》 |
7 | 定制化業務風險巡檢現場實施 | 基于咨詢服務提供實施方案,幫助企業實現應用快速接入AIOps方案產品中 | 《定制化業務風險巡檢實施方案》 |
6.服務SLA
AIOps解決方案咨詢服務SLA包含:
提供AIOps解決方案咨詢服務。
在服務期間內向客戶提供支持群以及按需的現場保障。
按對應服務規格提供《定制化業務風險巡檢方案》、《智能故障發現解決方案》等方案,具體交付物根據服務內容有所不同。
7.服務流程
申請時間限制:客戶須至少在服務開始前15天提出服務購買申請。
AIOps解決方案咨詢服務流程介紹:
AIOps解決方案實施服務流程介紹:
8.驗收標準
8.1.驗收分項清單
編號 | 交付階段 | 交付物 | 交付物類型 |
1 | 項目調研階段 | 《項目調研報告》 | 文檔 |
2 | 方案設計階段 | 《智能故障發現解決方案》 | 支持 |
3 | 《定制化業務風險巡檢方案》 | 文檔 | |
4 | 方案實施階段 | 《智能故障發現解決實施方案》 | 文檔 |
5 | 《定制化業務風險巡檢實施方案》 | 文檔 |
8.2.驗收標準
驗收標準
方案設計達到客戶要求,線上簽署確認,具體方案見《8.1 驗收分項清單》
乙方在項目過程中提供智能故障發現解決方案和定制化業務風險巡檢方案,設計方案得到甲方驗收后,完成第一階段工作。基于此認可方案開展第二階段實施,乙方提供協助實施方案并提供技術支持,協助甲方根據方案實施。協助實施完成后客戶應在5個工作日內確認方案,線上簽署《服務驗收報告》后完成驗收
8.3.驗收計劃
根據《8.1驗收分項清單》所列示各階段的交付內容與交付物,本項目將按照以下驗收計劃進行項目驗收,甲方同意根據此驗收計劃對乙方的交付物進行驗收。
編號 | 驗收里程碑 | 驗收內容 | 驗收完成標志 |
1 | AIOps解決方案設計與驗證完成 | 項目準備、調研評估、設計階段所有交付物 | 甲方在線確認《驗收報告》 |
2 | AIOps解決方案實施完成 | 實施階段所有交付物 | 甲方在線確認《驗收報告》 |
9.完成標志
客戶驗收完成。
10.附錄
10.1.智能算法列表
類型 | 算法名稱 | 算法邏輯 |
異常診斷類算法 | One-Class SVM | 基于歷史批量數據的做算法學習并進行異常診斷 |
異常診斷類算法 | 孤立森林 | 基于歷史批量數據的做算法學習并進行異常診斷 |
異常診斷類算法 | Robust Covariance | 基于歷史批量數據的做算法學習并進行異常診斷 |
異常診斷類算法 | LocalOutlierFactor | 基于歷史批量數據的做算法學習并進行異常診斷 |
異常診斷類算法 | AutoEncoder | 基于歷史批量數據的做算法學習并進行異常診斷 |
根因分析算法 | Random Forest和PCA | 根因分析 |
時序異常診斷算法 | K-Sigma | 根據實時的時序數據進行異常診斷 |
時序異常診斷算法 | ARIMA | 根據實時的時序數據進行異常診斷 |
10.2.業務風險場景列表
場景類 | 場景名稱 | 描述 |
電商類 | 創建履約單 | 通過場景日志,計算場景指標,快速實現定制化業務場景巡檢 |
電商類 | 商品詳情頁 | 通過場景日志,計算場景指標,快速實現定制化業務場景巡檢 |
電商類 | 購物車加購 | 通過場景日志,計算場景指標,快速實現定制化業務場景巡檢 |
電商類 | 購物車渲染 | 通過場景日志,計算場景指標,快速實現定制化業務場景巡檢 |
電商類 | 下單頁渲染 | 通過場景日志,計算場景指標,快速實現定制化業務場景巡檢 |
電商類 | 提交支付 | 通過場景日志,計算場景指標,快速實現定制化業務場景巡檢 |
電商類 | 支付結果 | 通過場景日志,計算場景指標,快速實現定制化業務場景巡檢 |
電商類 | 收銀臺渲染 | 通過場景日志,計算場景指標,快速實現定制化業務場景巡檢 |
電商類 | 創建履約單 | 通過場景日志,計算場景指標,快速實現定制化業務場景巡檢 |
10.3.方案預期結果
智能故障發現解決方案
方案包括多指標多產品的鏈路性根因分析,本方案提供8種實時異常檢測和根因分析算法場景,同時保障算法的通用性。
定制化業務風險方案
方案包括各業務場景定制化巡檢,本方案提供場景架構方案并提供2個電商業務應用風險巡檢場景用于提升客戶自定義風險場景實施能力。