本文介紹了數云上架到計算巢的方案。
背景信息
2021年12月21日,在彈性計算年度峰會上,數云CRM運維總監陳延宗發表了主題為《計算巢最佳實踐--數云CRM一鍵云上交付》的演講,介紹了數云CRM在阿里云計算巢平臺的最佳實踐。原文請查看基于阿里云計算巢,云數CRM一鍵云上交付。
下圖為數云CRM運維總監陳延宗。
傳統交付的四個痛點
數云目前已發展成為國內領先的全域消費者增長解決方案提供商,客戶群體基本都偏向于大中型企業商家。這些商家客戶中的一部分會要求做私有化部署,在其阿里云平臺上部署業務系統。
在阿里云平臺上,數云為企業提供了CRM交付落地時可能需要用到的組件,如上圖所示。組件的種類非常多,包括安全、日志SLS、對象存儲OSS以及AKS等,其中的組件,特別是SLS、WAF、安全組都可能被使用到,它們都有一個特點,配置會很復雜化、業務化。
傳統的交付過程中,對于一個比較大的企業級應用交付,基本流程分為四步:
商務流程
需要先跟客戶溝通具體的采購和合同的商務事宜。
采購過程
與客戶商定好以后,運維工程師會提交數云的資源清單給客戶,資源清單會包含上面提到的組件的組合,這些資源都是要客戶手動購買。如果有To B業務經驗的可能會比較清楚,不同的B端客戶,他們IT團隊不一樣,每家情況都不一樣。有的IT團隊就一個人,對于阿里云的熟悉度并不高。
這個過程中,數云會提供一些建議,比如提供購買方法、資源型號等;可是僅僅一個ECS型號就有大幾百個,客戶很難選擇,我們又需要點對點地溝通解釋,這個過程付出了非常多的人力溝通成本,單純的采買過程可能只要一天,但是溝通過程就需要5個工作日。
安裝過程
安裝過程是比較快,基本是一鍵部署,由人手動操作的,資源檢查也是人來操作的,只要人操作就可能會出錯。系統初始化工作比較艱難,例如,一個比較大型的客戶,整個流程可能需要兩周。
業務使用
我們把系統初始化完成以后交付到客戶方,客戶來做相關的使用。
在傳統交付過程中,總結有如下四個痛點:
檢查
整個資源配置的結果是需要人工核查,有些客戶不會提供賬號,那就需要我們來盲猜,如猜一下機器的安全組等信息,然后需要手動去做;另外,資源的配置點比較多,資源清單種類也比較多,檢查工作就比較重。
操作
整個過程都是手動來操作的,包括采買,這樣就容易出現相關的錯誤。當阿里云平臺推出一些新的資源型號,做一些改動,那文檔的更新就比較麻煩,因為它不是自動化的;另外,文檔的更新會出現一些延遲,可能給到客戶是一個錯誤的文檔。
溝通
溝通的成本非常大。
時間
往往大量時間一直浪費在溝通和出錯成本上,理論上這些應該都是要避開的。
阿里云計算巢讓云上交付自動化
接入到阿里云計算巢之后,對比傳統交付的過程和操作就變得比較簡單了。我們需要把整個過程實例化出來,放到資源編排ROS里面來做。當客戶需要來購買軟件的時候,我們會給出資源清單,客戶只需要關注數量即可,比如某個組件購買一個還是幾個;客戶買完以后基本上無需檢查,因為他購買的資源一定是按照我們的標準來定義的,包括ECS、數據庫型號及版本等。
優化過程后,可以為服務商帶來以下收益:
檢查
檢查部分不再需要做,因為配置模板化。
操作
實現了自動化,客戶只需選擇購買的數量。
溝通
只需要提供最基礎的業務內容介紹文檔就可以,不再需要細節溝通。
時間
整體時間縮短,現在已經通過阿里云計算巢部署了5、6家客戶,每家的時間不超過一天,包括溝通、采買到最后初始化完成交付的時間。
未來規劃與升級
阿里云計算巢發布到現在有大概半年時間,我們真正對接也是近幾個月開始的。未來,我們會將一些自動化的程序加到里面去,做到更智能、更自動,具體分為3個方面:
租戶關系開通
租戶開通的時候,都會通過阿里云計算巢的開通關系跟租戶系統中的開通租戶溝通;也會包括增值賬戶的開通,企業類的租戶可能有一些預充值的費用,這一塊主要為數云內部的系統流程。
主機應用層初始化的優化
我們需要監控所有客戶主機的運行情況,比如日志的SLS、Metrics以及一些基礎的運行數據,或者一些特別指標(如tracing數據);同時包括K8s集群的初始化優化;我們將會把這些內容整合到計算巢中,實現可選的自動化插件。
完善保障體系
To B業務有一個難點就是多環境、多租戶的維護問題,我們的口號概括為三個數字“1、5、10”,就是1分鐘發現問題、5分鐘定位問題、10分鐘解決問題。主要是使用自動化的工具,縮短可以來促進“1、5、10”目標達成的相關過程。
計算巢上的交付演示
上圖主要展示了我們資源清單的樣例。左邊就是管理的節點,右邊是后端模塊使用的具體節點,比如說ECS、PolarDB、DTS、Redis等,這些我們都會用到。這里展示的每一個節點的購買可能都需要非常復雜的文檔,客戶在采買的時候,可能會問非常多的問題。
基于計算巢的CRM資源采買過程視頻如下:
該視頻展示的是我們采買的過程。客戶對采買的數量、實例的類型、系統的版本、交換機數量、購買時間等基礎信息進行選擇,從而完成部署。
根據視頻demo演示,可以看到整個過程基本沒有手動操作,運維人員可以看到相關的資源信息;如果客戶已經通過數云購買了資源,我們可以通過阿里云計算巢看到后臺的資源狀態,甚至一些系統級別的事件可以直接看到,這點對于我們運維來說也是非常友好的。