日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

FTP數(shù)據(jù)源

更新時(shí)間:

FTP數(shù)據(jù)源為您提供讀取和寫(xiě)入FTP雙向通道的功能,本文為您介紹DataWorks的FTP數(shù)據(jù)同步的能力支持情況。

使用限制

FTP Reader實(shí)現(xiàn)了從遠(yuǎn)程FTP文件讀取數(shù)據(jù)并轉(zhuǎn)為數(shù)據(jù)同步協(xié)議的功能,遠(yuǎn)程FTP文件本身是無(wú)結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)。對(duì)于數(shù)據(jù)同步而言,目前FTP Reader支持的功能如下所示:

支持

不支持

  • 支持且僅支持讀取TXT的文件,并要求TXT中的schema為一張二維表。

  • 支持類(lèi)CSV格式文件,自定義分隔符。

  • 支持多種類(lèi)型數(shù)據(jù)讀取(使用STRING表示)、支持列裁剪和列常量。

  • 支持遞歸讀取、支持文件名過(guò)濾。

  • 支持文本壓縮,現(xiàn)有壓縮格式為gzip、bzip2、zip、lzo和lzo_deflate。

  • 多個(gè)File可以支持并發(fā)讀取。

  • 單個(gè)File支持多線程并發(fā)讀取,此處涉及到單個(gè)File內(nèi)部切分算法。

  • 單個(gè)File在壓縮情況下,從技術(shù)上無(wú)法支持多線程并發(fā)讀取。

FTP Writer實(shí)現(xiàn)了從數(shù)據(jù)集成協(xié)議轉(zhuǎn)為FTP文件功能,F(xiàn)TP文件本身是無(wú)結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)。目前FTP Writer支持的功能如下:

支持

不支持

  • 支持且僅支持寫(xiě)入文本類(lèi)型(不支持BLOB,如視頻數(shù)據(jù))的文件,且要求文本中schema為一張二維表。

  • 支持類(lèi)CSV和TEXT格式的文件,自定義分隔符。

  • 支持多線程寫(xiě)入,每個(gè)線程寫(xiě)入不同子文件。

  • 單個(gè)文件不能支持并發(fā)寫(xiě)入。

  • FTP本身不提供數(shù)據(jù)類(lèi)型,F(xiàn)TP Writer均將數(shù)據(jù)以STRING類(lèi)型寫(xiě)入FTP文件。

  • 寫(xiě)出時(shí)不支持文本壓縮。

支持的字段類(lèi)型

遠(yuǎn)程FTP文件本身不提供數(shù)據(jù)類(lèi)型,該類(lèi)型是DataX FtpReader定義。

DataX內(nèi)部類(lèi)型

遠(yuǎn)程FTP文件數(shù)據(jù)類(lèi)型

LONG

LONG

DOUBLE

DOUBLE

STRING

STRING

BOOLEAN

BOOLEAN

DATE

DATE

創(chuàng)建數(shù)據(jù)源

在進(jìn)行數(shù)據(jù)同步任務(wù)開(kāi)發(fā)時(shí),您需要在DataWorks上創(chuàng)建一個(gè)對(duì)應(yīng)的數(shù)據(jù)源,操作流程請(qǐng)參見(jiàn)創(chuàng)建并管理數(shù)據(jù)源詳細(xì)的配置參數(shù)解釋可在配置界面查看對(duì)應(yīng)參數(shù)的文案提示

數(shù)據(jù)同步任務(wù)開(kāi)發(fā)

數(shù)據(jù)同步任務(wù)的配置入口和通用配置流程可參見(jiàn)下文的配置指導(dǎo)。

單表離線同步任務(wù)配置指導(dǎo)

附錄:腳本Demo與參數(shù)說(shuō)明

離線任務(wù)腳本配置方式

如果您配置離線任務(wù)時(shí)使用腳本模式的方式進(jìn)行配置,您需要按照統(tǒng)一的腳本格式要求,在任務(wù)腳本中編寫(xiě)相應(yīng)的參數(shù),詳情請(qǐng)參見(jiàn)通過(guò)腳本模式配置離線同步任務(wù),以下為您介紹腳本模式下數(shù)據(jù)源的參數(shù)配置詳情。

Reader腳本Demo

{
    "type":"job",
    "version":"2.0",//版本號(hào)。
    "steps":[
        {
            "stepType":"ftp",//插件名。
            "parameter":{
                "path":[],//文件路徑。
                "nullFormat":"",//null值。
                "compress":"",//壓縮格式。
                "datasource":"",//數(shù)據(jù)源。
                "column":[//字段。
                    {
                        "index":0,//序列號(hào)。
                        "type":""http://字段類(lèi)型。
                    }
                ],
                "skipHeader":"",//是否包含表頭。
                "fieldDelimiter":",",//列分隔符。
                "encoding":"UTF-8",//編碼格式。
                "fileFormat":"csv"http://文本類(lèi)型。
            },
            "name":"Reader",
            "category":"reader"
        },
        {
            "stepType":"stream",
            "parameter":{},
            "name":"Writer",
            "category":"writer"
        }
    ],
    "setting":{
        "errorLimit":{
            "record":"0"http://錯(cuò)誤記錄數(shù)。
        },
        "speed":{
        "throttle":true,//當(dāng)throttle值為false時(shí),mbps參數(shù)不生效,表示不限流;當(dāng)throttle值為true時(shí),表示限流。
            "concurrent":1 //作業(yè)并發(fā)數(shù)。
            "mbps":"12",//限流,此處1mbps = 1MB/s。
        }
    },
    "order":{
        "hops":[
            {
                "from":"Reader",
                "to":"Writer"
            }
        ]
    }
}

Reader腳本參數(shù)

參數(shù)

描述

是否必選

默認(rèn)值

datasource

數(shù)據(jù)源名稱(chēng),腳本模式支持添加數(shù)據(jù)源,此配置項(xiàng)填寫(xiě)的內(nèi)容必須要與添加的數(shù)據(jù)源名稱(chēng)保持一致。

無(wú)

path

遠(yuǎn)程FTP文件系統(tǒng)的路徑和文件名信息,需要填寫(xiě)包含路徑和文件后綴的完整文件路徑和文件名。這里可以支持填寫(xiě)多個(gè)路徑。

  • 當(dāng)指定單個(gè)遠(yuǎn)程FTP文件,F(xiàn)TP Reader暫時(shí)只能使用單線程進(jìn)行數(shù)據(jù)抽取。后期會(huì)在非壓縮文件情況下針對(duì)單個(gè)File進(jìn)行多線程并發(fā)讀取。

  • 當(dāng)指定多個(gè)遠(yuǎn)程FTP文件,F(xiàn)TP Reader支持使用多線程進(jìn)行數(shù)據(jù)抽取。線程并發(fā)數(shù)通過(guò)通道數(shù)指定。

  • 當(dāng)指定通配符,F(xiàn)TP Reader嘗試遍歷出多個(gè)文件信息。例如,指定/代表讀取/目錄下所有的文件,指定/bazhen/代表讀取bazhen目錄下游所有的文件。FTP Reader目前僅支持星號(hào)(*)作為文件通配符,并支持使用調(diào)度參數(shù)配合調(diào)度,靈活配置文件名與文件路徑。

說(shuō)明
  • 通常不建議您使用星號(hào)(*),易導(dǎo)致任務(wù)運(yùn)行報(bào)JVM內(nèi)存溢出的錯(cuò)誤。

  • 數(shù)據(jù)同步會(huì)將一個(gè)作業(yè)下同步的所有Text File視作同一張數(shù)據(jù)表。您必須自己保證所有的File能夠適配同一套Schema信息。

  • 您必須保證讀取文件為類(lèi)CSV格式,并且提供給數(shù)據(jù)同步系統(tǒng)權(quán)限可讀。

  • 如果Path指定的路徑下沒(méi)有符合匹配的文件抽取,同步任務(wù)將報(bào)錯(cuò)。

無(wú)

column

讀取字段列表,type指定源數(shù)據(jù)的類(lèi)型,index指定當(dāng)前列來(lái)自于文本第幾列(以0開(kāi)始),value指定當(dāng)前類(lèi)型為常量,不從源頭文件讀取數(shù)據(jù),而是根據(jù)value值自動(dòng)生成對(duì)應(yīng)的列。

默認(rèn)情況下,您可以全部按照STRING類(lèi)型讀取數(shù)據(jù),配置為"column":["*"]。您可以指定column字段信息,配置如下。

{
    "type": "long",
    "index": 0    //從遠(yuǎn)程FTP文件文本第一列獲取INT字段。
  },
  {
    "type": "string",
    "value": "alibaba"  //從FTP Reader內(nèi)部生成alibaba的字符串字段作為當(dāng)前字段。
  }

對(duì)于您指定的column信息,type必須填寫(xiě),index和value必須選擇其一。

無(wú)

fieldDelimiter

讀取的字段分隔符。

說(shuō)明

FTP Reader在讀取數(shù)據(jù)時(shí),需要指定字段分割符,如果不指定會(huì)默認(rèn)為(,),界面配置也會(huì)默認(rèn)填寫(xiě)(,)。

,

skipHeader

類(lèi)CSV格式文件可能存在表頭為標(biāo)題情況,需要跳過(guò)。默認(rèn)不跳過(guò),壓縮文件模式下不支持skipHeader。

false

encoding

讀取文件的編碼配置。

utf-8

nullFormat

文本文件中無(wú)法使用標(biāo)準(zhǔn)字符串定義null(空指針),數(shù)據(jù)同步提供nullFormat定義哪些字符串可以表示為null。 例如:

  • 配置nullFormat:"null",等同于“可見(jiàn)字符”,如果源頭數(shù)據(jù)是null,則數(shù)據(jù)同步視作null字段。

  • 配置nullFormat:"\u0001",等同于“不可見(jiàn)字符”,如果源頭數(shù)據(jù)是字符串"\u0001",則數(shù)據(jù)同步視作null字段。

  • 不寫(xiě)"nullFormat"這個(gè)參數(shù),等同于“未配置”,代表來(lái)源是什么數(shù)據(jù)就直接按照什么數(shù)據(jù)寫(xiě)入目標(biāo)端,不做任何轉(zhuǎn)換。

無(wú)

markDoneFileName

標(biāo)檔文件名,數(shù)據(jù)同步前檢查標(biāo)檔文件。如果標(biāo)檔文件不存在,等待一段時(shí)間重新檢查標(biāo)檔文件,如果檢查到標(biāo)檔文件開(kāi)始執(zhí)行同步任務(wù)。

無(wú)

maxRetryTime

表示檢查標(biāo)檔文件重試次數(shù),默認(rèn)重試60次,每一次重試間隔為1分鐘,共60分鐘。

60

csvReaderConfig

讀取CSV類(lèi)型文件參數(shù)配置,Map類(lèi)型。讀取CSV類(lèi)型文件使用的CsvReader進(jìn)行讀取,會(huì)有很多配置,不配置則使用默認(rèn)值。

無(wú)

fileFormat

讀取的文件類(lèi)型,默認(rèn)情況下文件作為csv格式文件進(jìn)行讀取,內(nèi)容被解析為邏輯上的二維表結(jié)構(gòu)處理。如果您配置為binary,則表示按照純粹二進(jìn)制格式進(jìn)行復(fù)制傳輸。

通常在FTP、OSS等存儲(chǔ)之間進(jìn)行目錄結(jié)構(gòu)對(duì)等復(fù)制時(shí)使用,通常無(wú)需配置該項(xiàng)。

無(wú)

Writer腳本Demo

{
    "type":"job",
    "version":"2.0",//版本號(hào)。
    "steps":[
        { 
            "stepType":"stream",
            "parameter":{},
            "name":"Reader",
            "category":"reader"
        },
        {
            "stepType":"ftp",//插件名。
            "parameter":{
                "path":"",//文件路徑。
                "fileName":"",//文件名稱(chēng)。
                "nullFormat":"null",//null值。
                "dateFormat":"yyyy-MM-dd HH:mm:ss",//時(shí)間格式。
                "datasource":"",//數(shù)據(jù)源。
                "writeMode":"",//寫(xiě)入模式。
                "fieldDelimiter":",",//列分隔符。
                "encoding":"",//編碼格式。
                "fileFormat":""http://文本類(lèi)型。
            },
            "name":"Writer",
            "category":"writer"
        }
    ],
    "setting":{
        "errorLimit":{
            "record":"0"http://錯(cuò)誤記錄數(shù)。
        },
        "speed":{
            "throttle":true,//當(dāng)throttle值為false時(shí),mbps參數(shù)不生效,表示不限流;當(dāng)throttle值為true時(shí),表示限流。
            "concurrent":1, //作業(yè)并發(fā)數(shù)。
            "mbps":"12"http://限流,此處1mbps = 1MB/s。
        }
    },
    "order":{
        "hops":[
            {
                "from":"Reader",
                "to":"Writer"
            }
        ]
    }
}

Writer腳本參數(shù)

參數(shù)

描述

是否必選

默認(rèn)值

datasource

數(shù)據(jù)源名稱(chēng),腳本模式支持添加數(shù)據(jù)源,此配置項(xiàng)填寫(xiě)的內(nèi)容必須要與添加的數(shù)據(jù)源名稱(chēng)保持一致。

無(wú)

timeout

連接FTP服務(wù)器連接超時(shí)時(shí)間,單位毫秒。

60,000(1分鐘)

path

FTP文件系統(tǒng)的路徑信息,F(xiàn)TP Writer會(huì)寫(xiě)入Path目錄下多個(gè)文件。

無(wú)

fileName

FTP Writer寫(xiě)入的文件名,該文件名會(huì)添加隨機(jī)的后綴作為每個(gè)線程寫(xiě)入實(shí)際文件名。

無(wú)

singleFileOutput

FtpWriter寫(xiě)入的文件名受fileName控制,默認(rèn)行會(huì)添加隨機(jī)的后綴作為每個(gè)線程寫(xiě)入實(shí)際文件名。如果您不需要默認(rèn)添加的隨機(jī)后綴,您可以將singleFileOutput配置為true,寫(xiě)出文件名將會(huì)是您指定的完整文件名。

false

writeMode

FTP Writer寫(xiě)入前數(shù)據(jù)清理處理模式:

  • truncate:當(dāng)singleFileOutput為true時(shí),寫(xiě)入前會(huì)清理目錄下同名文件;當(dāng)singleFileOutput為false時(shí),寫(xiě)入前會(huì)清理目錄下fileName前綴的所有文件。

  • append:寫(xiě)入前不做任何處理,數(shù)據(jù)集成FTP Writer直接使用fileName寫(xiě)入,并保證文件名不沖突。

  • nonConflict:如果目錄下有fileName前綴的文件,直接報(bào)錯(cuò)。

無(wú)

fieldDelimiter

寫(xiě)入的字段分隔符。

是,單字符

無(wú)

skipHeader

類(lèi)CSV格式文件可能存在表頭為標(biāo)題情況,需要跳過(guò)。默認(rèn)不跳過(guò),壓縮文件模式下不支持skipHeader

false

compress

支持gzipbzip2兩種壓縮形式。

無(wú)壓縮

encoding

讀取文件的編碼配置。

utf-8

nullFormat

文本文件中無(wú)法使用標(biāo)準(zhǔn)字符串定義null(空指針),數(shù)據(jù)集成提供nullFormat定義哪些字符串可以表示為null。

例如您配置nullFormat="null",如果源頭數(shù)據(jù)是空指針null,數(shù)據(jù)集成序列化為null字面值字符串(4個(gè)字符)。

無(wú)

dateFormat

日期類(lèi)型的數(shù)據(jù)序列化到文件中時(shí)的格式,例如"dateFormat":"yyyy-MM-dd"

無(wú)

fileFormat

文件寫(xiě)出的格式,包括CSV和TEXT兩種,CSV是嚴(yán)格的CSV格式,如果待寫(xiě)數(shù)據(jù)包括列分隔符,則會(huì)按照CSV的轉(zhuǎn)義語(yǔ)法轉(zhuǎn)義,轉(zhuǎn)義符號(hào)為雙引號(hào)。TEXT格式是用列分隔符簡(jiǎn)單分割待寫(xiě)數(shù)據(jù),對(duì)于待寫(xiě)數(shù)據(jù)包括列分隔符情況下不做轉(zhuǎn)義。

TEXT

header

header:txt文本(包括csv、text等)寫(xiě)出時(shí)的表頭,腳本模式支持配置表頭信息,例如"header":["id","name","age"],表示將id、name、age作為表頭寫(xiě)入ftp文件的第一行。

無(wú)

markDoneFileName

  • 標(biāo)檔文件名,同步任務(wù)結(jié)束后生成標(biāo)檔文件,根據(jù)此標(biāo)檔文件可以判斷同步任務(wù)是否成功。此處應(yīng)配置為絕對(duì)路徑。

  • 在離線周期任務(wù)場(chǎng)景下,建議標(biāo)檔文件攜帶調(diào)度參數(shù)。例如標(biāo)檔文件設(shè)置為/user/ftp/markDone_${bizdate}.txt,其中${bizdate}為調(diào)度參數(shù)。

無(wú)