通過DataWorks將阿里云ES數(shù)據(jù)同步到阿里云ES Serverless應(yīng)用中
如果您需要將云上Elasticsearch(簡稱ES)中的數(shù)據(jù)遷移至阿里云ES Serverless中,可通過DataWorks實現(xiàn)。本文介紹通過DataWorks的數(shù)據(jù)集成服務(wù)快速將ES實例中的數(shù)據(jù)同步到阿里云ES Serverless應(yīng)用中。
準備工作
創(chuàng)建阿里云ES實例。具體操作,請參見創(chuàng)建阿里云Elasticsearch實例和配置YML參數(shù)。
創(chuàng)建阿里云ES Serverless應(yīng)用。具體操作,請參見創(chuàng)建檢索通用型應(yīng)用。
創(chuàng)建DataWorks工作空間。具體操作,請參見創(chuàng)建工作空間。
工作空間所在地域與阿里云ES實例一致。
操作步驟
本文以離線同步為例。如果需要在線同步數(shù)據(jù),請參見一鍵實時同步至Elasticsearch。
步驟一:購買并創(chuàng)建獨享資源組
購買并創(chuàng)建一個數(shù)據(jù)集成獨享資源組,并為該資源組綁定專有網(wǎng)絡(luò)和工作空間。獨享資源組可以保障數(shù)據(jù)快速、穩(wěn)定地傳輸。
登錄DataWorks控制臺。
在左側(cè)導(dǎo)航欄,單擊資源組。
在獨享資源組頁簽下單擊創(chuàng)建舊版集成資源組,在購買頁面根據(jù)業(yè)務(wù)需要配置相應(yīng)的參數(shù)。
購買地域需要與ES實例所在地域保持一致,獨享資源類型選擇獨享數(shù)據(jù)集成資源。更多參數(shù)說明,請參見購買資源組。
在已創(chuàng)建的獨享資源組的操作列,單擊網(wǎng)絡(luò)設(shè)置,為該獨享資源組綁定專有網(wǎng)絡(luò)。
獨享資源部署在DataWorks托管的專有網(wǎng)絡(luò)中,DataWorks需要與ES實例的專有網(wǎng)絡(luò)連通才能同步數(shù)據(jù)。新增專有網(wǎng)絡(luò)綁定時選擇ES實例所在的專有網(wǎng)絡(luò)、可用區(qū)和交換機。更多信息,請參見綁定專有網(wǎng)絡(luò)。
在已創(chuàng)建的獨享資源組的操作列,單擊綁定工作空間,為該獨享資源組綁定目標工作空間。
具體操作,請參見綁定歸屬工作空間。
步驟二:添加數(shù)據(jù)源
將ES實例和ES Serverless應(yīng)用數(shù)據(jù)源接入DataWorks的數(shù)據(jù)集成服務(wù)中。
進入DataWorks的數(shù)據(jù)集成頁面。
登錄DataWorks控制臺。
在左側(cè)導(dǎo)航欄,單擊工作空間。
在目標工作空間的操作列,選擇
。
在左側(cè)導(dǎo)航欄,單擊數(shù)據(jù)源。
新增ES實例數(shù)據(jù)源。
在數(shù)據(jù)源列表頁面,單擊新增數(shù)據(jù)源。
在新增數(shù)據(jù)源對話框中,搜索并選擇Elasticsearch。
在新增Elasticsearch數(shù)據(jù)源對話框,配置ES實例信息。
更多信息,請參見配置Elasticsearch數(shù)據(jù)源。
單擊測試連通性,連通狀態(tài)顯示為可連通時,表示連通成功。
單擊完成。
使用同樣的方式添加ES Serverless數(shù)據(jù)源。
部分參數(shù)說明:
參數(shù)
說明
數(shù)據(jù)源名稱
Elasticsearch
數(shù)據(jù)源類型
連接串模式
Endpoint
阿里云ES Serverless的應(yīng)用訪問地址,格式為:http://<實例公網(wǎng)地址>:9200。
說明目前僅支持公網(wǎng)方式訪問。
用戶名
訪問阿里云ES Serverless實例的用戶名,在基本信息處獲取。
密碼
對應(yīng)用戶的密碼。
步驟三:配置并運行數(shù)據(jù)同步任務(wù)
數(shù)據(jù)離線同步任務(wù)將獨享資源組作為一個可以執(zhí)行任務(wù)的資源,獨享資源組將獲取數(shù)據(jù)集成服務(wù)中數(shù)據(jù)來源的數(shù)據(jù),并將數(shù)據(jù)寫入數(shù)據(jù)去向中。
有兩種方式可以配置離線同步任務(wù),文本以向?qū)J脚渲秒x線同步任務(wù)為例。您也可以通過腳本模式配置離線同步任務(wù),詳情請參見通過腳本模式配置離線同步任務(wù)、Elasticsearch Reader和Elasticsearch Writer。
進入DataWorks的數(shù)據(jù)開發(fā)頁面。
登錄DataWorks控制臺。
在左側(cè)導(dǎo)航欄,單擊工作空間。
在目標工作空間的操作列,選擇
。
新建一個離線同步任務(wù)。
在左側(cè)導(dǎo)航欄,單擊圖標,選擇
,新建一個業(yè)務(wù)流程。右鍵單擊新建的業(yè)務(wù)流程,選擇
。在新建節(jié)點對話框中,輸入節(jié)點名稱,單擊確認。
網(wǎng)絡(luò)與資源配置。
數(shù)據(jù)來源選擇Elasticsearch,數(shù)據(jù)源名稱選擇已添加的ES數(shù)據(jù)源。
我的資源組選擇獨享資源組。
數(shù)據(jù)去向選擇Elasticsearch,數(shù)據(jù)源名稱選擇已添加的ES Serverless數(shù)據(jù)源。
單擊下一步。
配置離線同步任務(wù)。詳細信息,請參見通過向?qū)J脚渲秒x線同步任務(wù)。
在數(shù)據(jù)來源和數(shù)據(jù)去向區(qū)域,設(shè)置同步的具體對象。
說明建議在數(shù)據(jù)去向的高級配置中,啟用節(jié)點發(fā)現(xiàn)保持默認,設(shè)置為否。否則同步過程中會提示連接超時。
在字段映射區(qū)域中,設(shè)置來源字段與目標字段的映射關(guān)系。
在通道控制區(qū)域中,配置執(zhí)行任務(wù)的相關(guān)參數(shù)。
(可選)配置任務(wù)調(diào)度屬性。在頁面右側(cè),單擊屬性,按照需求配置相應(yīng)的調(diào)度參數(shù)。
更多信息,請參見任務(wù)調(diào)度屬性配置概述。
提交并發(fā)布任務(wù)。
單擊圖標,提交當前配置。
單擊圖標,運行任務(wù)。任務(wù)運行過程中,可查看運行日志。運行成功后,顯示如下結(jié)果。
步驟四:驗證數(shù)據(jù)同步結(jié)果
登錄目標阿里云ES Serverless應(yīng)用的Kibana控制臺。具體操作,請參見通過Kibana使用Serverless應(yīng)用。
在左側(cè)導(dǎo)航欄,單擊Dev Tools(開發(fā)工具)。
在Console中,執(zhí)行如下命令,查看同步成功的數(shù)據(jù)。
GET /test_2serverless/_search
說明test_2serverless需要替換為您在數(shù)據(jù)同步腳本中設(shè)置的index字段的值。