本文中含有需要您注意的重要提示信息,忽略該信息可能對您的業務造成影響,請務必仔細閱讀。
Kafka是應用較為廣泛的分布式、高吞吐量、高可擴展性消息隊列服務,普遍用于日志收集、監控數據聚合、流式數據處理、在線和離線分析等大數據領域,是大數據生態中不可或缺的產品之一。通過數據傳輸服務DTS(Data Transmission Service),您可以將RDS MySQL遷移至有公網IP的自建Kafka集群,擴展消息處理能力。
前提條件
已完成Kafka集群的搭建,且Kafka的版本為0.10.1.0-2.7.0版本。
Kafka集群的服務端口已開放至公網。
背景信息
由于數據同步功能對自建Kafka的部署位置要求如下:
ECS上的自建數據庫
通過專線/VPN網關/智能接入網關接入的自建數據庫
無公網IP:Port的數據庫(通過數據庫網關DG接入)
通過云企業網CEN接入的自建數據庫
如果Kafka集群的部署位置為本地,且不符合上述場景,您可以將自建Kafka的服務端口開放至公網,然后通過本文介紹的方法來實現數據同步需求。
注意事項
DTS在執行全量數據遷移時將占用源庫和目標庫一定的讀寫資源,可能會導致數據庫的負載上升,在數據庫性能較差、規格較低或業務量較大的情況下(例如源庫有大量慢SQL、存在無主鍵表或目標庫存在死鎖等),可能會加重數據庫壓力,甚至導致數據庫服務不可用。因此您需要在執行數據遷移前評估源庫和目標庫的性能,同時建議您在業務低峰期執行數據遷移(例如源庫和目標庫的CPU負載在30%以下)。
如果源數據庫沒有主鍵或唯一約束,且所有字段沒有唯一性,可能會導致目標數據庫中出現重復數據。
遷移對象僅支持數據表。
費用說明
遷移類型 | 鏈路配置費用 | 公網流量費用 |
結構遷移和全量數據遷移 | 不收費。 | 通過公網將數據遷移出阿里云時將收費,詳情請參見計費概述。 |
增量數據遷移 | 收費,詳情請參見計費概述。 |
操作步驟
登錄數據傳輸控制臺。
說明若數據傳輸控制臺自動跳轉至數據管理DMS控制臺,您可以在右下角的中單擊,返回至舊版數據傳輸控制臺。
在左側導航欄,單擊數據遷移。
在遷移任務列表頁面頂部,選擇遷移的目標集群所屬地域。
單擊頁面右上角的創建遷移任務。
配置遷移任務的源庫及目標庫信息。
類別
配置
說明
無
任務名稱
DTS會自動生成一個任務名稱,建議配置具有業務意義的名稱(無唯一性要求),便于后續識別。
源庫信息
實例類型
選擇RDS。
實例地區
選擇源RDS實例所屬的地域。
實例ID
選擇源RDS實例ID。
數據庫賬號
填入源RDS實例的數據庫賬號,需具備REPLICATION CLIENT、REPLICATION SLAVE、SHOW VIEW和所有遷移對象的SELECT權限。
數據庫密碼
填入該數據庫賬號的密碼。
連接方式
根據需求選擇非加密連接或SSL安全連接。如果設置為SSL安全連接,您需要提前開啟RDS實例的SSL加密功能,詳情請參見設置SSL加密。
目標庫信息
實例類型
選擇有公網IP的自建數據庫。
實例地區
無需設置。
數據庫類型
選擇Kafka。
主機名或IP地址
填入自建Kafka集群的訪問地址,本案例中填入公網地址。
端口
填入Kafka集群提供服務的端口,默認為9092。
數據庫賬號
填入Kafka集群的用戶名,如Kafka集群未開啟驗證可不填寫。
數據庫密碼
填入Kafka集群用戶名的密碼,如Kafka集群未開啟驗證可不填寫。
Topic
單擊右側的獲取Topic列表,然后在下拉框中選擇目標Topic。
Kafka版本
選擇目標Kafka集群的版本。
連接方式
根據業務及安全需求,選擇非加密連接或SCRAM-SHA-256。
配置完成后,單擊頁面右下角的授權白名單并進入下一步。
如果源或目標數據庫是阿里云數據庫實例(例如RDS MySQL、云數據庫MongoDB版等),DTS會自動將對應地區DTS服務的IP地址添加到阿里云數據庫實例的白名單;如果源或目標數據庫是ECS上的自建數據庫,DTS會自動將對應地區DTS服務的IP地址添到ECS的安全規則中,您還需確保自建數據庫沒有限制ECS的訪問(若數據庫是集群部署在多個ECS實例,您需要手動將DTS服務對應地區的IP地址添到其余每個ECS的安全規則中);如果源或目標數據庫是IDC自建數據庫或其他云數據庫,則需要您手動添加對應地區DTS服務的IP地址,以允許來自DTS服務器的訪問。DTS服務的IP地址,請參見DTS服務器的IP地址段。
警告DTS自動添加或您手動添加DTS服務的公網IP地址段可能會存在安全風險,一旦使用本產品代表您已理解和確認其中可能存在的安全風險,并且需要您做好基本的安全防護,包括但不限于加強賬號密碼強度防范、限制各網段開放的端口號、內部各API使用鑒權方式通信、定期檢查并限制不需要的網段,或者使用通過內網(專線/VPN網關/智能網關)的方式接入。
配置遷移類型、策略和對象信息。
配置
說明
遷移類型
同時選中結構遷移、全量數據遷移和增量數據遷移。
重要如果未選中增量數據遷移,為保障數據一致性,全量數據遷移期間請勿在源庫中寫入新的數據。
投遞到kafka的數據格式
遷移到Kafka集群中的數據以avro格式或者Canal Json格式存儲,定義詳情請參見Kafka集群的數據存儲格式。
遷移到Kafka Partition策略
根據業務需求選擇遷移的策略,詳細介紹請參見Kafka Partition同步策略說明。
遷移對象
在遷移對象框中單擊待遷移的表,然后單擊圖標將其移動至已選擇對象框。
映射名稱更改
如需更改遷移對象在目標實例中的名稱,請使用對象名映射功能,詳情請參見庫表列映射。
源、目標庫無法連接重試時間
默認重試12小時,您也可以自定義重試時間。如果DTS在設置的時間內重新連接上源、目標庫,遷移任務將自動恢復。否則,遷移任務將失敗。
說明由于連接重試期間,DTS將收取任務運行費用,建議您根據業務需要自定義重試時間,或者在源和目標庫實例釋放后盡快釋放DTS實例。
源表DMS_ONLINE_DDL過程中是否復制臨時表到目標庫
如源庫使用數據管理DMS(Data Management)執行Online DDL變更,您可以選擇是否遷移Online DDL變更產生的臨時表數據。
是:遷移Online DDL變更產生的臨時表數據。
說明Online DDL變更產生的臨時表數據過大,可能會導致遷移任務延遲。
否:不遷移Online DDL變更產生的臨時表數據,只遷移源庫的原始DDL數據。
說明該方案會導致目標庫鎖表。
上述配置完成后,單擊頁面右下角的預檢查并啟動。
說明在遷移任務正式啟動之前,會先進行預檢查。只有預檢查通過后,才能成功啟動遷移任務。
如果預檢查失敗,單擊具體檢查項后的,查看失敗詳情。
您可以根據提示修復后重新進行預檢查。
如無需修復告警檢測項,您也可以選擇確認屏蔽、忽略告警項并重新進行預檢查,跳過告警檢測項重新進行預檢查。
預檢查通過后,單擊下一步。
在彈出的購買配置確認對話框,選擇鏈路規格并選中數據傳輸(按量付費)服務條款。
單擊購買并啟動,遷移任務正式開始。
結構遷移+全量數據遷移
請勿手動結束遷移任務,否則可能會導致數據不完整。您只需等待遷移任務完成即可,遷移任務會自動結束。
結構遷移+全量數據遷移+增量數據遷移
遷移任務不會自動結束,您需要手動結束遷移任務。
重要請選擇合適的時間手動結束遷移任務,例如業務低峰期或準備將業務切換至目標集群時。
觀察遷移任務的進度變更為增量遷移,并顯示為無延遲狀態時,將源庫停寫幾分鐘,此時增量遷移的狀態可能會顯示延遲的時間。
等待遷移任務的增量遷移再次進入無延遲狀態后,手動結束遷移任務。