ApsaraDB for OceanBase數據源提供讀取和寫入ApsaraDB for OceanBase數據的雙向功能,您可以使用ApsaraDB for OceanBase數據源配置同步任務同步數據。本文為您介紹DataWorks的ApsaraDB for OceanBase數據同步能力支持情況。
支持的版本
離線讀寫
ApsaraDB For OceanBase Reader和ApsaraDB For OceanBase Writer通過OceanBase數據庫驅動訪問ApsaraDB For OceanBase,您需要確認驅動和您的ApsaraDB For OceanBase服務之間的兼容能力。數據庫驅動使用如下版本。
<dependency>
<groupId>com.alipay.OceanBase</groupId>
<artifactId>OceanBase-connector-java</artifactId>
<version>3.1.0</version>
</dependency>
使用限制
離線讀
ApsaraDB For OceanBase包括Oracle和MySQL兩種租戶模式,您在配置where數據過濾條件、column中的函數列時,需要符合對應租戶模式的SQL語法約束,否則SQL語句可能執行失敗。
支持讀取視圖表。
在離線讀取OceanBase數據的過程中,請避免對正在同步的數據進行修改操作,否則可能會導致數據質量問題(如數據重復或數據丟失)。
離線寫
insert into...
:當主鍵或唯一性索引沖突時,無法寫入沖突的行。Oracle租戶模式下僅支持insert into
。insert into...ON DUPLICATE KEY UPDATE...
:當主鍵或唯一性索引未沖突時,與insert into
的行為一致。當主鍵或唯一性索引沖突時,新行會替換指定的字段。MySQL租戶模式下支持insert into...
和insert into...ON DUPLICATE KEY UPDATE...
。目的表所在數據庫必須是主庫才能寫入數據。
說明整個任務需要至少具備
insert into...
的權限。是否需要其它權限,取決于您配置任務時,在preSql和postSql中指定的語句。建議您使用batch的方式批量寫入數據,當行數累計到預定閾值時,再發起寫入請求。
ApsaraDB For OceanBase包括Oracle和MySQL兩種租戶模式,您在配置preSql、postSql時,需要符合對應租戶模式的SQL語法約束,否則SQL語句可能執行失敗。
實時讀
OceanBase為分布式關系型數據庫,可以將物理分布不同的多個數據庫上的數據整合為一個完整的邏輯數據庫。但實時同步OceanBase的數據至AnalyticDB for MySQL,目前僅支持同步單個物理庫的數據,不支持同步邏輯庫數據。
在整庫實時同步任務中,不支持連接串模式數據源。
在整庫實時同步任務中,版本需要在V3.0及以上。
數據同步前準備
在DataWorks上進行數據同步前,您需要參考本文提前在ApsaraDB For OceanBase側進行數據同步環境準備,以便在DataWorks上進行ApsaraDB For OceanBase數據同步任務配置與執行時服務正常。以下為您介紹ApsaraDB For OceanBase同步前的相關環境準備。
準備工作1:配置白名單
將Serverless資源組或獨享數據集成資源組所在的VPC網段添加至OceanBase的白名單中,詳情請參見添加白名單。
準備工作2:創建賬號并配置賬號權限
您需要規劃一個數據庫的登錄賬戶用于后續執行操作,此賬號需要擁有OceanBase的相關操作權限,詳情請參見新建賬號。
創建數據源
在進行數據同步任務開發時,您需要在DataWorks上創建一個對應的數據源,操作流程請參見創建并管理數據源,詳細的配置參數解釋可在配置界面查看對應參數的文案提示。
數據同步任務開發
數據同步任務的配置入口和通用配置流程可參見下文的配置指導。
單表離線同步任務配置指導
操作流程請參見通過向導模式配置離線同步任務、通過腳本模式配置離線同步任務。
腳本模式配置的全量參數和腳本Demo請參見下文的附錄:腳本Demo與參數說明。
整庫實時同步任務配置指導
操作流程請參見DataStudio側實時同步任務配置。
單表或整庫全增量(實時)讀同步配置指導
操作流程請參見數據集成側同步任務配置。
附錄:腳本Demo與參數說明
離線任務腳本配置方式
如果您配置離線任務時使用腳本模式的方式進行配置,您需要按照統一的腳本格式要求,在任務腳本中編寫相應的參數,詳情請參見通過腳本模式配置離線同步任務,以下為您介紹腳本模式下數據源的參數配置詳情。
Reader腳本Demo
{
"type": "job",
"steps": [
{
"stepType": "apsaradb_for_OceanBase", //插件名
"parameter": {
"datasource": "", //數據源名
"where": "",
"column": [ //字段
"id",
"name"
],
"splitPk": ""
},
"name": "Reader",
"category": "reader"
},
{
"stepType": "stream",
"parameter": {
"print": false,
"fieldDelimiter": ","
},
"name": "Writer",
"category": "writer"
}
],
"version": "2.0",
"order": {
"hops": [
{
"from": "Reader",
"to": "Writer"
}
]
},
"setting": {
"errorLimit": {
"record": "0" //錯誤記錄數
},
"speed": {
"throttle": true, //當throttle值為false時,mbps參數不生效,表示不限流;當throttle值為true時,表示限流。
"concurrent": 1, //作業并發數
"mbps":"12"http://限流,此處1mbps = 1MB/s。
}
}
}
Reader腳本參數
參數 | 描述 | 是否必選 | 默認值 |
datasource | 如果您使用的DataWorks版本支持添加ApsaraDB For OceanBase數據源,即可在此處根據數據源名稱引用您添加的ApsaraDB For OceanBase數據源。 包括jdbcUrl和username兩種配置方式。 | 是 | 無 |
jdbcUrl | 到對端數據庫的JDBC連接信息。使用JSON的數組描述,并支持一個庫填寫多個連接地址。 如果配置了多個,ApsaraDB For OceanBase Reader可以依次探測IP的可連接性,直到選擇一個合法的IP。 如果全部連接失敗,則ApsaraDB For OceanBase Reader報錯。 說明 jdbcUrl必須包含在connection配置單元中。 jdbcUrl根據ApsaraDB For OceanBase官方規范,可以填寫連接附件控制信息。例如 | 否 | 無 |
username | 數據源的用戶名。 | 否 | 無 |
password | 數據源指定用戶名的密碼。 | 否 | 無 |
table | 選取的需要同步的表。使用JSON的數組進行描述,支持同時讀取多張表。 當配置為多張表時,您需要保證多張表的Schema結構一致,ApsaraDB For OceanBase Reader不檢查表的邏輯是否統一。 說明 table必須包含在connection配置單元中。 | 是 | 無 |
column | 所配置的表中需要同步的列名集合,使用JSON的數組描述字段信息 。默認使用所有列配置,例如[ * ]。
| 是 | 無 |
splitPk | ApsaraDB For OceanBase Reader進行數據抽取時,如果指定splitPk,表示您希望使用splitPk代表的字段進行數據分片,數據同步因此會啟動并發任務進行數據同步,提高數據同步的效能。
| 否 | 空 |
where | ApsaraDB For OceanBase Reader根據指定的column、table、where條件拼接SQL,并根據該SQL進行數據抽取。 例如,在進行測試時,可以指定where條件為limit 10。在實際業務場景中,通常會選擇當天的數據進行同步,指定where條件為
| 否 | 無 |
querySql | 在部分業務場景中,where配置項不足以描述所篩選的條件,您可以通過該配置型來自定義篩選SQL。配置該項后,數據同步系統會忽略tables、columns和splitPk配置項,直接使用該項配置的內容對數據進行篩選。 當您配置querySql時,ApsaraDB For OceanBase Reader直接忽略table、column、where和splitPk條件的配置。 | 否 | 無 |
fetchSize | 該配置項定義了插件和數據庫服務器端每次批量數據獲取條數,該值決定了數據集成和服務器端的網絡交互次數,能夠較大地提升數據抽取性能。 說明 fetchSize值過大(>2048)可能造成數據同步進程OOM。 | 否 | 1,024 |
Writer腳本Demo
{
"type":"job",
"version":"2.0",//版本號。
"steps":[
{
"stepType":"stream",
"parameter":{},
"name":"Reader",
"category":"reader"
},
{
"stepType":"apsaradb_for_OceanBase",//插件名。
"parameter":{
"datasource": "數據源名",
"column": [//字段。
"id",
"name"
],
"table": "apsaradb_for_OceanBase_table",//表名。
"preSql": [ //執行數據同步任務之前率先執行的SQL語句。
"delete from @table where db_id = -1"
],
"postSql": [//執行數據同步任務之后率先執行的SQL語句。
"update @table set db_modify_time = now() where db_id = 1"
],
"writeMode": "insert",
},
"name":"Writer",
"category":"writer"
}
],
"setting":{
"errorLimit":{
"record":"0"http://錯誤記錄數。
},
"speed":{
"throttle":true,//當throttle值為false時,mbps參數不生效,表示不限流;當throttle值為true時,表示限流。
"concurrent":1, //作業并發數。
"mbps":"12"http://限流,此處1mbps = 1MB/s。
}
},
"order":{
"hops":[
{
"from":"Reader",
"to":"Writer"
}
]
}
}
Writer腳本參數
參數 | 描述 | 是否必選 | 默認值 |
datasource | 如果您使用的DataWorks版本支持添加ApsaraDB For OceanBase數據源,即可在此處根據數據源名稱引用您添加的ApsaraDB For OceanBase數據源。 包括jdbcUrl和username兩種配置方式。 | 否 | 無 |
jdbcUrl | 到對端數據庫的JDBC連接信息,jdbcUrl包含在connection配置單元中。
| 是 | 無 |
username | 數據源的用戶名。 | 是 | 無 |
password | 數據源指定用戶名的密碼。 | 是 | 無 |
table | 需要同步寫出的表名稱,使用JSON的數組進行描述。 說明 table必須包含在connection配置單元中。 | 是 | 無 |
column | 目標表需要寫入數據的字段,字段之間用英文所逗號分隔。例如, 說明 column配置項必須指定,不能為空。 | 是 | 無 |
writeMode | 控制寫入數據至目標表使用的模式,包括 | 是 | 無 |
preSql | 寫入數據至目標表前,會先執行此處的標準語句。如果SQL中有需要操作的表名稱,請使用 | 否 | 無 |
postSql | 寫入數據至目標表后,會執行此處的標準語句。 | 否 | 無 |
batchSize | 一次性批量提交的記錄數大小,該值可以極大減少數據同步系統與服務器端的網絡交互次數,并提升整體吞吐量。 說明 fetchSize值過大(>2048)可能造成數據同步進程OOM。 | 否 | 1,024 |