日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

MaxCompute(原ODPS)數(shù)據(jù)源配置

更新時(shí)間:

開(kāi)放數(shù)據(jù)處理服務(wù)MaxCompute(原ODPS)是一個(gè)開(kāi)放的計(jì)算平臺(tái),如果您要導(dǎo)入到OpenSearch-行業(yè)算法版的數(shù)據(jù)是由MaxCompute平臺(tái)計(jì)算而產(chǎn)生的,則可以在應(yīng)用中配置MaxCompute源信息,在觸發(fā)應(yīng)用索引重建任務(wù)后,系統(tǒng)會(huì)自動(dòng)去獲取 MaxCompute 表中的全量數(shù)據(jù),后續(xù)的增量需通過(guò)調(diào)用SDK API推送過(guò)來(lái)。

設(shè)置賬號(hào)AccessKey

目前在OpenSearch-行業(yè)算法版中配置MaxCompute數(shù)據(jù)源后,OpenSearch-行業(yè)算法版是通過(guò)用戶填寫(xiě)的accessKey和accessKeySecret去下載MaxCompute數(shù)據(jù)表的數(shù)據(jù),因此在配置MaxCompute數(shù)據(jù)源之前,需要確定賬號(hào)的accessKey和accessKeySecret。

說(shuō)明

MaxCompute和OpenSearch需要同屬于一個(gè)賬號(hào)。

  • 如果用戶確定可以使用主賬號(hào)的accessKey和accessKeySecret,那么即可用主賬號(hào)的accessKey和accessKeySecret去訪問(wèn)該賬號(hào)下的MaxCompute中project的表。

  • 如果使用主賬號(hào)的accessKey和accessKeySecret風(fēng)險(xiǎn)較大,也可以通過(guò)子賬號(hào)去配置,配置步驟如下:

  1. 在該主賬號(hào)下創(chuàng)建一個(gè)子賬號(hào),詳情可參考RAM(子賬號(hào))的創(chuàng)建及授權(quán)

  2. 在MaxCompute中為該子賬號(hào)添加成員:

001

角色可由用戶自行選擇:

002

  1. 添加成員之后,在MaxCompute數(shù)據(jù)開(kāi)發(fā)界面查看其賬號(hào),命令為list users; ,更多參考使用控制臺(tái)(查詢編輯器)連接

003

  1. 整體復(fù)制該賬號(hào)名,然后給該賬號(hào)賦權(quán)(xxx 表示3中復(fù)制的賬號(hào)):

-- 1.project list權(quán)限
grant CreateInstance,List on project zy_ts_test to user xxx;

-- 2.表的select,describe,download權(quán)限
GRANT select,describe,download ON TABLE people_info TO USER xxx;

-- 3.odps表的label權(quán)限(可選)
set label 2 to USER  xxx;

-- 查詢指定用戶的權(quán)限信息和綁定的角色信息
show grants for xxx;

授權(quán)完成后即可在opensearch中配置MaxCompute數(shù)據(jù)源。

配置MaxCompute 數(shù)據(jù)源

  1. 選擇通過(guò)數(shù)據(jù)源配置應(yīng)用:

004

選擇MaxCompute數(shù)據(jù)源:

005

  1. 點(diǎn)擊新建數(shù)據(jù)庫(kù),配置MaxCompute(原ODPS)信息,填寫(xiě)project,以及已經(jīng)在 MaxCompute授權(quán)的賬號(hào)的accessKey和accessKeySecret:

005

  1. 連接后選擇需要配置的數(shù)據(jù)表:

006

完成后,系統(tǒng)會(huì)自動(dòng)映射出對(duì)應(yīng)的字段,用戶可根據(jù)業(yè)務(wù)需求,進(jìn)行微調(diào),符合需求后點(diǎn)擊下一步

007

重要

配置應(yīng)用結(jié)構(gòu)時(shí),OpenSearch-行業(yè)算法版規(guī)定必須要有一張主表,并且各個(gè)表需要配置唯一的主鍵字段。

  1. 配置索引結(jié)構(gòu),可根據(jù)用戶的檢索需求,選擇合適的分析器,詳情可參考索引結(jié)構(gòu),符合需求后點(diǎn)擊下一步

007

  1. 配置數(shù)據(jù)源(包括:配置字段映射關(guān)系,選擇分區(qū)信息,選擇數(shù)據(jù)同步并發(fā)控制機(jī)制);

5.1. 配置字段映射關(guān)系:點(diǎn)擊操作欄中的編輯按鈕,OpenSearch-行業(yè)算法版為MaxCompute(原ODPS)的數(shù)據(jù)提供了若干數(shù)據(jù)源插件說(shuō)明,如要使用,則在配置字段對(duì)應(yīng)關(guān)系的同時(shí),點(diǎn)擊“內(nèi)容轉(zhuǎn)換”列中的“+”符號(hào),則會(huì)在源字段被同步到OpenSearch-行業(yè)算法版之前,先進(jìn)行內(nèi)容轉(zhuǎn)換,再進(jìn)行同步。如果內(nèi)容轉(zhuǎn)換插件由于配置錯(cuò)誤、無(wú)法連接等錯(cuò)誤失效,則源字段仍然會(huì)被同步到目標(biāo)字段,只是內(nèi)容不會(huì)被轉(zhuǎn)換。

2

配置插件:3

重要
  • 目前已經(jīng)支持的MaxCompute(原ODPS)的字段類型有:Bigint、Double、Boolean、Datetime、String、Decimal。

  • 對(duì)于ODPS表中的datetime類型系統(tǒng)會(huì)自動(dòng)轉(zhuǎn)化為毫秒數(shù),請(qǐng)將對(duì)應(yīng)OpenSearch-行業(yè)算法版字段類型設(shè)置為INT。

5.2. 選擇分區(qū)信息:根據(jù)MaxCompute(原ODPS)數(shù)據(jù)特性,OpenSearch-行業(yè)算法版允許用戶根據(jù)具體需要來(lái)指定導(dǎo)入的分區(qū),支持正則表達(dá)式,表示導(dǎo)入前一天的數(shù)據(jù),結(jié)合應(yīng)用基本信息-索引重建-定時(shí)索引重建功能,可以實(shí)現(xiàn)每天導(dǎo)入新分區(qū)數(shù)據(jù)的效果。

正則表達(dá)式 (等號(hào)/逗號(hào)/分號(hào)/雙豎線為系統(tǒng)保留,每天自動(dòng)導(dǎo)入前1天分區(qū)全量數(shù)據(jù)條件例子ds=%Y%m%d || -1 days)

1

說(shuō)明

ds為分區(qū)字段名,“=”兩邊不允許有空格等其他不可見(jiàn)字符

不同場(chǎng)景下MaxCompute(原ODPS)分區(qū)條件用法,參考如下所示:

  • 1: 支持多個(gè)分區(qū)過(guò)濾規(guī)則,不同的分區(qū)過(guò)濾規(guī)則用分號(hào)分隔,如pt=1;pt=2將匹配滿足分區(qū)字段pt=1或者pt=2的所有分區(qū)。

  • 2: 分區(qū)過(guò)濾規(guī)則,支持指定多個(gè)分區(qū)字段的值,不同分區(qū)字段用逗號(hào)分隔,如:pt1=1,pt2=2,pt3=3 將匹配同時(shí)滿足pt1=1,pt2=2,pt3=3的所有分區(qū)【多分區(qū)目前不支持function功能,即不支持 %Y%m%d || -1 days這樣的,單分區(qū)是可以支持的】。

1

:(如上圖所示一張odps表中有pt分區(qū)下有ds分)

  • 多個(gè)分區(qū):pt=1;pt=2 將同步pt=1 和 pt=2分區(qū)下的所有數(shù)據(jù)

  • 指定多個(gè)分區(qū)字段的值:pt=1,ds=1 將同步pt=1同時(shí)ds=1的分區(qū)數(shù)據(jù)

  • 不支持情況:pt=1,ds=%Y%m%d || -1 days 或者pt=1;pt=%Y%m%d || -1 days 該類情況暫不支持

  • 3: 分區(qū)字段的值支持通配符 *,表示該分區(qū)字段可以為任意的值,這種情況下,過(guò)濾規(guī)則中也可不寫(xiě)該字段

  • 4: 分區(qū)字段的值支持正則表達(dá)式,如pt=[0-9]* 將匹配pt值為數(shù)字的所有分區(qū)。

  • 5: 分區(qū)字段的值支持時(shí)間匹配,匹配規(guī)則: pt=包含格式化時(shí)間的分區(qū)列值||時(shí)間間隔表達(dá)式。如ds=%Y%m%d || -1 days,表示分區(qū)字段為ds,格式為20150510,需要訪問(wèn)1天前的數(shù)據(jù)。

  • 5.1 格式化時(shí)間參數(shù)支持標(biāo)準(zhǔn)的時(shí)間格式參數(shù),如下表

  • 5.2 時(shí)間間隔表達(dá)式支持 +/- n week|weeks|day|days|hour|hours|minute|minutes|second|seconds|microsecond|microseconds, +號(hào)表示任務(wù)創(chuàng)建時(shí)間的表示n周/天/小時(shí)/分鐘/秒/毫秒后,-號(hào)表示任務(wù)創(chuàng)建時(shí)間的表示n周/天/小時(shí)/分鐘/秒/毫秒前。

  • 5.3 系統(tǒng)默認(rèn)會(huì)對(duì)所有過(guò)濾規(guī)則,按照+0 days進(jìn)行時(shí)間參數(shù)替換,因此,需要注意的是,用于過(guò)濾的字段值不能包含下面這些字符串作為普通的字符串參數(shù),如星期三創(chuàng)建的任務(wù),pt=%abc 將匹配pt的值為Wedbc的分區(qū),而不是pt=%abc的分區(qū)。

正則表達(dá)式全部可用參數(shù)及含義,參考如下:

%d:  日在這個(gè)月中的天數(shù)(是這個(gè)月的第幾天)  
%H:  小時(shí)(24小時(shí)制,[0, 23])     
%m: 月份([01,12])  
%M:  分鐘([00,59])   
%S:  秒(范圍為[00,61])   
%y:  2個(gè)數(shù)字表示的年份  
%Y:  4個(gè)數(shù)字表示的年份

5.3. 選擇數(shù)據(jù)同步并發(fā)控制機(jī)制:

當(dāng)用戶勾選【使用done文件】后,OpenSearch支持用戶通過(guò)上傳done文件的方式控制系統(tǒng)拉取全量數(shù)據(jù)的時(shí)機(jī),保證全量數(shù)據(jù)的完整性。系統(tǒng)在開(kāi)始從MaxCompute(原ODPS)拉全量數(shù)據(jù)之前會(huì)先判斷一下當(dāng)天的done文件是否存在,如果不存在則等待,默認(rèn)等待1小時(shí)后超時(shí)。

  • 用戶需從odps官網(wǎng)下載odpscm,文件名為:odps_clt_release_64.tar.gz;

  • 用戶需要具有所在project空間的CreateResource權(quán)限;

  • 安裝后在用戶程序中運(yùn)行如下命令:其中done文件的命名規(guī)則為$prefix_%Y-%m-%d。$prefix: 文件名前綴,默認(rèn)為表名,%Y-%m-%d:索引重建任務(wù)日期,系統(tǒng)定時(shí)任務(wù)目前支持的最小粒度為1天。

    odpscmd -u accessid -p accesskey --project=<prj_name>-e "add file <done file>;"
  • MaxCompute客戶端odpscmd使用說(shuō)明,請(qǐng)參考使用本地客戶端(odpscmd)連接

  • done文件內(nèi)容為JSON格式,目前僅需包含如下內(nèi)容,用于指定該批全量數(shù)據(jù)的時(shí)間戳(毫秒)【最多只保留3天增量,因此該時(shí)間點(diǎn)不可以超過(guò)3天】。

  • 該時(shí)間戳表示需要回溯的增量數(shù)據(jù)時(shí)間點(diǎn),如果不配置則默認(rèn)從索引重建任務(wù)開(kāi)始時(shí)間追加數(shù)據(jù)【最多只保留3天增量,因此該時(shí)間點(diǎn)不可以超過(guò)3天】。

  • 【例如】全量數(shù)據(jù)是今天9點(diǎn)的,odps處理完畢后為10點(diǎn),OpenSearch定時(shí)任務(wù)為10:30,則done文件需要指定為當(dāng)天9點(diǎn)的毫秒值,在處理完全量后系統(tǒng)會(huì)追加當(dāng)天9點(diǎn)后的增量,保證數(shù)據(jù)完整性;否則會(huì)從默認(rèn)任務(wù)啟動(dòng)時(shí)間10:30開(kāi)始追加,這樣9:00~10:30期間的增量會(huì)丟失,該行為非常重要,需要特別注意。(當(dāng)然,若沒(méi)有增量,則無(wú)需配置該時(shí)間戳)。

  • 高級(jí)版done文件內(nèi)容如下所示(提示:標(biāo)準(zhǔn)版中需設(shè)置的數(shù)據(jù)時(shí)間值也是類似原理,都是用來(lái)追索引重建期間API的增量數(shù)據(jù)的)。

{
"timestamp":"1234567890000"
}

done file與數(shù)據(jù)時(shí)間的優(yōu)先級(jí):

  1. ODPS數(shù)據(jù)源的“數(shù)據(jù)時(shí)間”目前是必選的,且優(yōu)先于donefile;

  2. 用戶如果只創(chuàng)建一個(gè)版本,就只需要指定“數(shù)據(jù)時(shí)間”,沒(méi)有辦法單獨(dú)使用donefile;

  3. 用戶如果需要使用定時(shí)索引重建,就必須“數(shù)據(jù)時(shí)間”和donefile都配置:第一個(gè)版本優(yōu)先使用“數(shù)據(jù)時(shí)間”,之后的每一個(gè)版本都優(yōu)先使用donefile;

注意事項(xiàng)

重要

目前 MaxCompute 數(shù)據(jù)源只支持全量同步,不支持增量同步