日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

通過DataWorks將HBase數據同步到阿里云ES

如果您需要對HBase中的數據進行搜索和分析,可借助阿里云Elasticsearch實現。本文介紹通過DataWorks的數據集成服務,快速將數據離線同步到阿里云ES中。

背景信息

DataWorks是一個基于大數據引擎,集成數據開發、任務調度、數據管理等功能的全鏈路大數據開發治理平臺。您可以通過DataWorks的同步任務,快速的將各種數據源中的數據同步到阿里云ES。

  • 支持同步的數據源包括:

    • 阿里云云數據庫(MySQL、PostgreSQL、SQL Server、MongoDB、HBase)

    • 阿里云PolarDB-X(原DRDS升級版)

    • 阿里云MaxCompute

    • 阿里云OSS

    • 阿里云Tablestore

    • 自建HDFS、Oracle、FTP、DB2及以上數據庫類型的自建版本

  • 適用場景:

    • 大數據離線同步到阿里云ES的場景,支持同步整個庫或同步某個表中的全部數據。更多信息,請參見整庫離線同步至Elasticsearch。

    • 大數據在線實時同步到阿里云ES的場景,支持全量、增量一體化同步。更多信息,請參見一鍵實時同步至Elasticsearch

前提條件

說明
  • 僅支持將數據同步到阿里云ES,不支持自建Elasticsearch。

  • HBase實例、ES實例和DataWorks工作空間所在地域需保持一致。

  • HBase實例、ES實例和DataWorks工作空間需要在同一時區下,否則同步與時間相關的數據時,同步前后的數據可能存在時區差。

費用說明

操作步驟

步驟一:環境源數據

本文使用的建表語句及測試數據如下。關于如何向HBase集群中導入數據,請參見使用HBase Shell訪問。

  • 建表語句

    create 'student', {NAME => 'name'}, {NAME => 'ID'}, {NAME => 'xingbie'}
  • 測試數據

    使用put命令向數據表中插入數據,例如:put 'student', 'row1', 'name:a', 'xiaoming'。

    使用scan命令查看表中的數據,例如:scan 'student'。HBase測試數據

步驟二:購買并配置獨享資源組

購買一個數據集成獨享資源組,并為該資源組綁定專有網絡和工作空間。獨享資源組可以保障數據快速、穩定地傳輸。

  1. 登錄DataWorks控制臺。

  2. 在頂部菜單欄選擇相應地域后,在左側導航欄單擊資源組

  3. 獨享資源組頁簽下,單擊創建舊版集成資源組

  4. DataWorks獨享資源購買頁面,獨享資源類型選擇獨享數據集成資源,輸入資源組名稱,單擊立即購買,購買獨享資源組。

    更多配置信息,請參見購買資源組。

  5. 在已創建的獨享資源組的操作列,單擊網絡設置,為該獨享資源組綁定專有網絡。具體操作,請參見綁定專有網絡。

    說明

    本文以獨享數據集成資源組通過VPC內網同步數據為例。更多信息,請參見添加白名單。

    獨享資源需要與HBase實例和Elasticsearch實例的專有網絡連通才能同步數據,因此需要分別綁定HBase實例和Elasticsearch實例所在的專有網絡可用區交換機。查看ES實例所在專有網絡信息,請參見查看Elasticsearch實例的基本信息。

    重要

    綁定專有網絡后,您需要將對應專有網絡的交換機網段加入到HBase、Elasticsearch實例的私網白名單中。具體操作,請參見配置Elastic search實例公網或私網訪問白名單。

  6. 在頁面左上角,單擊返回圖標,返回資源組列表頁面,

  7. 在已創建的獨享資源組的操作列,單擊綁定工作空間,為該獨享資源組綁定目標工作空間。

    具體操作,請參見綁定歸屬工作空間

步驟三:添加數據源

將HBase和Elasticsearch數據源接入DataWorks的數據集成服務中。

  1. 進入DataWorks的數據集成頁面。

    1. 登錄DataWorks控制臺。

    2. 在左側導航欄,單擊工作空間

    3. 在目標工作空間的操作列,選擇快速進入 數據集成。

  2. 在左側導航欄,單擊數據源。

  3. 新增HBase數據源。

    1. 數據源列表頁面,單擊新增數據源

    2. 新增數據源頁面,搜索并選擇HBase數據源。

    3. 新增HBase數據源對話框,在基礎信息區域配置數據源參數。

      配置詳情,請參見配置HBase數據源。

    4. 連接配置區域,單擊測試連通性,連通狀態顯示為可連通時,表示連通成功。

    5. 單擊完成

  4. 使用同樣的方式添加Elasticsearch數據源。配置詳情,請參見配置Elasticsearch數據源。

步驟四:配置并運行數據離線同步任務

數據離線同步任務將獨享資源組作為一個可以執行任務的資源,獨享資源組將獲取數據集成服務中數據源的數據,并將數據寫入ES。

說明

有兩種方式可以配置離線同步任務,文本以向導模式配置離線同步任務為例。您也可以通過腳本模式配置離線同步任務,詳情請參見通過腳本模式配置離線同步任務Elasticsearch Writer

  1. 進入DataWorks的數據開發頁面。

    1. 登錄DataWorks控制臺。

    2. 在左側導航欄,單擊工作空間。

    3. 在目標工作空間的操作列,選擇快速進入 數據開發

  2. 新建一個離線同步任務。

    1. 在左側導航欄,單擊image圖標,選擇新建 > 新建業務流程,新建一個業務流程。

      image

    2. 右鍵單擊新建的業務流程,選擇新建節點 > 離線同步。

    3. 新建節點對話框中,輸入節點名稱,單擊確認。

  3. 配置網絡與資源

    1. 數據來源區域,數據來源選擇HBase,數據源名稱選擇待同步的數據源名稱。

    2. 我的資源組區域,選擇獨享資源組。

    3. 數據去向區域,數據去向選擇Elasticsearch,數據源名稱選擇待同步的數據源名稱。

  4. 單擊下一步。

  5. 配置任務。

    1. 數據來源區域,選擇待同步的表。

    2. 數據去向區域,配置數據去向的各參數。

    3. 字段映射區域中,設置來源字段目標字段的映射關系。具體配置,請參見通過向導模式配置離線同步任務。

    4. 通道控制區域,配置通道參數。

    詳細配置信息,請參見通過向導模式配置離線同步任務。

  6. 運行任務。

    1. (可選)配置任務調度屬性。在頁面右側,單擊調度配置,按照需求配置相應的調度參數。各配置的詳細說明請參見調度配置。

    2. 在節點區域的右上角,單擊保存圖標,保存任務。

    3. 在節點區域的右上角,單擊提交圖標,提交任務。

      如果您配置了任務調度屬性,任務會定期自動執行。您還可以在節點區域的右上角,單擊運行圖標,立即運行任務。

      運行日志中出現Shell run successfully!表明任務運行成功。

步驟五:驗證數據同步結果

  1. 登錄目標阿里云Elasticsearch實例的Kibana控制臺,根據頁面提示進入Kibana主頁。
    登錄Kibana控制臺的具體操作,請參見登錄Kibana控制臺。
    說明 本文以阿里云Elasticsearch 7.10.0版本為例,其他版本操作可能略有差別,請以實際界面為準。
  2. 單擊右上角的Dev tools。
  3. Console頁簽中,執行如下命令查看同步的數據。

    POST /student_info/_search?pretty
    {
       "query": { "match_all": {}}
    }
    說明

    student_info為您在離線同步任務的數據去向中設置的索引名稱。