本文中含有需要您注意的重要提示信息,忽略該信息可能對您的業務造成影響,請務必仔細閱讀。
本文介紹如何使用數據傳輸服務DTS(Data Transmission Service),將自建PostgreSQL或RDS PostgreSQL實例增量遷移至自建PostgreSQL或RDS PostgreSQL實例。DTS支持結構遷移、全量數據遷移和增量數據遷移,同時使用這三種遷移類型可以實現在自建應用不停服的情況下,平滑地完成數據庫遷移。本文介紹自建PostgreSQL增量遷移至RDS PostgreSQL的配置方式。
前提條件
- 自建PostgreSQL的數據庫版本為10.1~13版本。
- 已創建RDS PostgreSQL,詳情請參見創建RDS PostgreSQL實例。 說明 為保障兼容性,建議RDS PostgreSQL的數據庫版本與自建PostgreSQL的數據庫版本相同。
- RDS PostgreSQL實例的存儲空間須大于自建PostgreSQL數據庫占用的存儲空間。
注意事項
DTS在執行全量數據遷移時將占用源庫和目標庫一定的讀寫資源,可能會導致數據庫的負載上升,在數據庫性能較差、規格較低或業務量較大的情況下(例如源庫有大量慢SQL、存在無主鍵表或目標庫存在死鎖等),可能會加重數據庫壓力,甚至導致數據庫服務不可用。因此您需要在執行數據遷移前評估源庫和目標庫的性能,同時建議您在業務低峰期執行數據遷移(例如源庫和目標庫的CPU負載在30%以下)。
如果源庫中待遷移的表沒有主鍵或唯一約束,且所有字段沒有唯一性,可能會導致目標數據庫中出現重復數據。
- 在增量數據遷移過程中,如果遷移對象的選擇粒度為Schema,在待遷移的Schema中創建了新的表或使用RENAME命令重建了待遷移的表,您需要在對該表寫入數據前執行
ALTER TABLE schema.table REPLICA IDENTITY FULL;
命令。說明 將上述命令中的schema
和table
替換成真實的Schema名和表名。 - 為保障增量數據遷移延遲時間展示的準確性,DTS會在源庫中新增一個名為dts_postgres_heartbeat的心跳表。
- 在增量數據遷移的過程中,DTS會在源庫中創建前綴為
dts_sync_
的replication slot用于復制數據。DTS會每隔90分鐘自動清理一次歷史replication slot,避免其持續累積占用磁盤空間。說明 當釋放遷移任務或遷移失敗時,DTS會主動清理該replication slot;如果RDS PostgreSQL發生了主備切換,則需要您登錄備庫來手動清理。 - 為保障遷移任務的正常進行,目前僅支持RDS PostgreSQL 11進行主備切換,且需設置參數
rds_failover_slot_mode
為sync
,設置方式,請參見邏輯復制槽故障轉移(Logical Replication Slot Failover)。警告 自建PostgreSQL和其他版本的RDS PostgreSQL進行主備切換,會導致遷移中斷。 - 對于遷移失敗的任務,DTS會觸發自動恢復。當您需要將業務切換至目標實例,請務必先終止或釋放該任務,避免該任務被自動恢復后,導致源端數據覆蓋目標實例的數據。
- 若源庫有長事務,且實例包含增量遷移任務,則可能會導致源庫長事務提交前的預寫日志WAL(Write-Ahead Logging)無法清理而堆積,從而造成源庫磁盤空間不足。
遷移限制
- 一個數據遷移任務只能對一個數據庫進行數據遷移,如果有多個數據庫需要遷移,則需要為每個數據庫創建數據遷移任務。
- 待遷移的數據庫名稱中間不能包含短劃線(-),例如dts-testdata。
- 如果遷移過程中源庫發生了主備切換,DTS的增量數據遷移無法實現斷點續傳。
- 由于源庫的主備節點可能存在同步延遲導致數據不一致,執行數據遷移時請使用源庫的主節點作為遷移的數據源。 說明 為避免數據遷移對業務的影響,請在業務低峰期執行數據遷移,您還可以根據源庫的讀寫壓力情況調整遷移速率,詳情請參見調整全量遷移速率。
- 增量數據遷移階段不支持遷移bit類型的數據。
- 由于業務切換到目標端后,新寫入的Sequence不會按照源庫的Sequence最大值作為初始值去遞增,您需要在業務切換前,在源庫中查詢對應Sequence的最大值,然后在目標庫中將其作為對應Sequence的初始值。
- DTS的校驗對象為數據內容,暫不支持Sequence等元數據的校驗,您需要自行校驗。
費用說明
遷移類型 | 鏈路配置費用 | 公網流量費用 |
結構遷移和全量數據遷移 | 不收費。 | 通過公網將數據遷移出阿里云時將收費,詳情請參見計費概述。 |
增量數據遷移 | 收費,詳情請參見計費概述。 |
數據庫賬號的權限要求
數據庫 | 結構遷移 | 全量遷移 | 增量遷移 |
自建PostgreSQL數據庫 | pg_catalog的usage權限 | 遷移對象的select權限 | superuser |
RDS PostgreSQL實例 | 遷移對象的create、usage權限 | schema的owner權限 | schema的owner權限 |
數據庫賬號創建及授權方法:
- 自建PostgreSQL數據庫請參見CREATE USER和GRANT語法。
- RDS PostgreSQL實例請參見創建賬號。
數據遷移流程說明
為解決對象間的依賴,提高遷移成功率,DTS對PostgreSQL結構及數據的遷移順序如下表所示。
DTS自動執行的遷移流程 | 遷移說明 |
1.結構遷移 | DTS遷移TABLE、VIEW、SEQUENCE、FUNCTION、USER DEFINED TYPE、RULE、DOMAIN、OPERATION、AGGREGATE的結構信息至目標庫。 說明 不支持遷移插件、使用C語言編寫的FUNCTION。 |
2.全量數據遷移 | DTS將遷移對象的存量數據全部遷移至目標庫。 |
3.結構遷移 | DTS遷移TRIGGER、FOREIGN KEY的結構信息至目標庫。 |
4.增量數據遷移 | 在全量數據遷移的基礎上,DTS將遷移對象的增量更新遷移至目標庫。 在增量數據遷移階段,DTS支持增量遷移的SQL語句如下:
說明 增量數據遷移階段不支持遷移bit類型的數據。 |
準備工作
- 登錄自建PostgreSQL所屬的服務器。
- 修改配置文件postgresql.conf,將配置文件中的
wal_level
設置為logical
。說明- 配置文件修改完成后,您需要執行
SELECTpg_reload_conf();
命令或重啟自建PostgreSQL使參數生效。 - 如果不需要增量數據遷移,可跳過本步驟。
- 配置文件修改完成后,您需要執行
- 將DTS的IP地址加入至自建PostgreSQL的配置文件pg_hba.conf中。您只需添加目標數據庫所在區域對應的DTS IP地址段,詳情請參見遷移、同步或訂閱本地數據庫時需添加的IP白名單。說明 關于該配置文件的設置請參見pg_hba.conf文件。如果您已將信任地址配置為
0.0.0.0/0
(如下圖所示),可跳過本步驟。 - 可選:在源庫中創建觸發器和函數來捕獲DDL信息實現DDL操作的同步,詳情請參見通過觸發器和函數實現PostgreSQL的DDL增量遷移。說明 如果無需同步DDL操作,可跳過本步驟。
操作步驟
登錄數據傳輸控制臺。
說明若數據傳輸控制臺自動跳轉至數據管理DMS控制臺,您可以在右下角的中單擊,返回至舊版數據傳輸控制臺。
在左側導航欄,單擊數據遷移。
在遷移任務列表頁面頂部,選擇遷移的目標集群所屬地域。
單擊頁面右上角的創建遷移任務。
- 配置遷移任務的源庫及目標庫信息。
類別 配置 說明 無 任務名稱 DTS會自動生成一個任務名稱,建議配置具有業務意義的名稱(無唯一性要求),便于后續識別。 源庫信息 實例類型 根據源庫的部署位置進行選擇,本文以有公網IP的自建數據庫為例介紹配置流程。 說明 當自建數據庫為其他實例類型時,您還需要執行相應的準備工作,詳情請參見準備工作概覽。實例地區 當實例類型選擇為有公網IP的自建數據庫時,實例地區無需設置。 數據庫類型 選擇PostgreSQL。 主機名或IP地址 填入自建PostgreSQL數據庫的訪問地址,本案例中填入公網地址。 端口 填入自建PostgreSQL數據庫的服務端口(該端口須開放至公網)。 數據庫名稱 填入自建PostgreSQL數據庫中待遷移的數據庫名。 數據庫賬號 填入自建PostgreSQL的數據庫賬號,權限要求請參見數據庫賬號的權限要求。 數據庫密碼 填入該數據庫賬號對應的密碼。 說明源庫信息填寫完畢后,您可以單擊數據庫密碼后的測試連接來驗證填入的源庫信息是否正確。源庫信息填寫正確則提示測試通過;如果提示測試失敗,單擊測試失敗后的診斷,根據提示調整填寫的源庫信息。
目標庫信息 實例類型 選擇RDS實例。 實例地區 選擇目標RDS實例所屬地域。 RDS實例ID 選擇目標RDS實例ID。 數據庫名稱 填入RDS實例中待遷入數據的數據庫名,可以和源庫的庫名不同。 說明 該數據庫須在阿里云RDS中存在,如不存在請創建數據庫。數據庫賬號 填入RDS的數據庫賬號,權限要求請參見數據庫賬號的權限要求。 數據庫密碼 填入該數據庫賬號對應的密碼。 說明目標庫信息填寫完畢后,您可以單擊數據庫密碼后的測試連接來驗證填入的目標庫信息是否正確。目標庫信息填寫正確則提示測試通過;如果提示測試失敗,單擊測試失敗后的診斷,根據提示調整填寫的目標庫信息。
- 配置完成后,單擊頁面右下角的授權白名單并進入下一步。如果源或目標數據庫是阿里云數據庫實例(例如RDS MySQL、云數據庫MongoDB版等),DTS會自動將對應地區DTS服務的IP地址添加到阿里云數據庫實例的白名單;如果源或目標數據庫是ECS上的自建數據庫,DTS會自動將對應地區DTS服務的IP地址添到ECS的安全規則中,您還需確保自建數據庫沒有限制ECS的訪問(若數據庫是集群部署在多個ECS實例,您需要手動將DTS服務對應地區的IP地址添到其余每個ECS的安全規則中);如果源或目標數據庫是IDC自建數據庫或其他云數據庫,則需要您手動添加對應地區DTS服務的IP地址,以允許來自DTS服務器的訪問。DTS服務的IP地址,請參見DTS服務器的IP地址段。警告
DTS自動添加或您手動添加DTS服務的公網IP地址段可能會存在安全風險,一旦使用本產品代表您已理解和確認其中可能存在的安全風險,并且需要您做好基本的安全防護,包括但不限于加強賬號密碼強度防范、限制各網段開放的端口號、內部各API使用鑒權方式通信、定期檢查并限制不需要的網段,或者使用通過內網(專線/VPN網關/智能網關)的方式接入。
- 選擇遷移類型和遷移對象。
配置 說明 遷移類型 - 如果只需要進行全量數據遷移,則同時選中結構遷移和全量數據遷移。
- 如果需要進行不停機遷移,則同時選中結構遷移、全量數據遷移和增量數據遷移。本案例中同時選中這三個遷移類型。
說明 如果沒有選中增量數據遷移,為保障數據一致性,數據遷移期間請勿在源庫中寫入新的數據。遷移對象 在遷移對象框中單擊待遷移的對象,然后單擊圖標將其移動至已選擇對象框。
說明- 遷移對象選擇的粒度為Schema、表、列。
- 默認情況下,遷移完成后,遷移對象名跟自建PostgreSQL數據庫一致。如果您需要變更遷移對象在目標RDS實例中的名稱,那么需要使用對象名映射功能,詳情請參見庫表列映射。
- 如果使用了對象名映射功能,可能會導致依賴該對象的其他對象遷移失敗。
映射名稱更改 如需更改遷移對象在目標實例中的名稱,請使用對象名映射功能,詳情請參見庫表列映射。 源、目標庫無法連接重試時間 默認重試12小時,您也可以自定義重試時間。如果DTS在設置的時間內重新連接上源、目標庫,遷移任務將自動恢復。否則,遷移任務將失敗。 說明 由于連接重試期間,DTS將收取任務運行費用,建議您根據業務需要自定義重試時間,或者在源和目標庫實例釋放后盡快釋放DTS實例。 上述配置完成后,單擊頁面右下角的預檢查并啟動。
說明在遷移任務正式啟動之前,會先進行預檢查。只有預檢查通過后,才能成功啟動遷移任務。
如果預檢查失敗,單擊具體檢查項后的,查看失敗詳情。
您可以根據提示修復后重新進行預檢查。
如無需修復告警檢測項,您也可以選擇確認屏蔽、忽略告警項并重新進行預檢查,跳過告警檢測項重新進行預檢查。
預檢查通過后,單擊下一步。
在彈出的購買配置確認對話框,選擇鏈路規格并選中數據傳輸(按量付費)服務條款。
- 單擊購買并啟動,遷移任務正式開始。
結束遷移任務
- 全量數據遷移
請勿手動結束遷移任務,否則可能導致數據不完整。您只需等待遷移任務完成即可,遷移任務會自動結束。
- 增量數據遷移
遷移任務不會自動結束,您需要手動結束遷移任務。
- 觀察遷移任務的進度變更為增量遷移,并顯示為無延遲狀態時,將源庫停寫幾分鐘,此時增量遷移的狀態可能會顯示延遲的時間。
- 等待遷移任務的增量遷移再次進入無延遲狀態后,手動結束遷移任務。