日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

TFRecord數據轉換

PAI提供多種數據轉換功能,可以將圖片文件快速轉換為TFRecord文件,從而使用訓練組件進行模型訓練。如果通過PAI智能標注平臺進行數據標注,則系統會自動生成標記結果文件,您可以直接調用數據轉換組件生成TFRecord文件。 如果通過其他平臺進行數據標注,則需要使用PAI命令將標記文件轉換為PAI標注文件。

說明

您可以使用SQL腳本組件進行PAI命令調用,也可以使用MaxCompute客戶端或DataWorks的開發節點進行PAI命令調用,詳情請參見使用本地客戶端(odpscmd)連接開發ODPS SQL任務

圖片分類或圖片多標簽分類

使用PAI命令將圖片分類或圖片多標簽分類的標記文件轉換為TFRecord的示例如下。

pai -name easy_vision_ext 
      -Dbuckets='oss://{bucket_name}.{oss_host}/{path}/' 
      -Darn='acs:ram::*******:role/aliyunodpspaidefaultrole' 
      -DossHost='{oss_host}' 
      -Dcmd  convert 
      -Dlabel_file 'oss://{bucket_name}/path/to/your/{label_file}' 
      -Dconvert_param_config ' --class_list_file oss://{bucket_name}/path/to/your/{class_list_file} --max_image_size 600 --write_parallel_num 8 --num_samples_per_tfrecord 128 --test_ratio 0.1 --model_type CLASSIFICATION'
      -Doutput_tfrecord 'oss://{bucket_name}/path/to/output/data_prefix'
      -Dcluster='{\"worker\" : {\"count\" : 1,\"cpu\" : 800}}'

文字檢測識別

使用PAI命令將文字檢測識別的標記文件轉換為TFRecord的示例如下。

pai -name easy_vision_ext
      -Dbuckets='oss://{bucket_name}.{oss_host}/{path}/'
      -Darn='acs:ram::*******:role/aliyunodpspaidefaultrole'
      -DossHost='{oss_host}'
      -Dcmd  convert
      -Dlabel_file 'oss://{bucket_name}/path/to/your/{label_file}'
      -Dconvert_param_config '--model_type TEXT_END2END --default_class text --max_image_size 2000 --char_replace_map_path oss://{bucket_name}/path/to/your_char_replace_map --default_char_dict_path oss://{bucket_name}/path/to/your_char_dict --test_ratio 0.1 --write_parallel_num 8 --num_samples_per_tfrecord 64'
      -Doutput_tfrecord 'oss://{bucket_name}/test/convert/recipt_text_end2end/data'

命令參數說明

參數

是否必選

描述

參數值格式

默認值

buckets

可以輸入多個Bucket,以半角逗號(,)分隔,每個Bucket必須以正斜線(/)結尾。

“oss://bucket_name/?role_arn=xxx&host=yyy” “oss://bucket_1/?role_arn=xxx&host=yyy,oss://bucket_2/”

cmd

必須配置為convert。

STRING

convert

label_file

PAI標注文件的OSS路徑,具體格式說明請參見標注文件格式說明。

oss://your_bucket/xxx.csv

convert_param_config

轉換配置參數,詳情請參見下方表格。該參數與convert_config參數選擇其一即可。

--parama valuea --paramb valueb

””

output_tfrecord

輸出TFRecord前綴。

oss://your_dir/prefix

””

cluster

分布式轉換參數配置。

JSON格式字符串

“{\”worker\”:{\”count\”:3, \”cpu\”: 800, \”gpu\”:0, \”memory\”: 20000}}”

convert_param_config參數說明如下。

參數

是否必選

描述

參數值格式

默認值

model_type

轉換數據用于何種模型訓練,取值包括:

  • CLASSIFICATION :圖像分類或多標簽

  • DETECTION:物體檢測

  • SEGMENTATION:語義分割

  • INSTANCE_SEGMENTATION:Instance分割

  • TEXT_END2END:端到端OCR

  • TEXT_RECOGNITION:單行文字識別

  • TEXT_DETECTION :文字檢測

  • VIDEO_CLASSIFICATION :視頻分類

  • SELF_DEFINED:自定義轉換

說明

model_type取值為TEXT_END2ENDTEXT_RECOGNITION時,char_replace_map_pathdefault_char_dict_path參數生效。model_type取值為VIDEO_CLASSIFICATION時,decode_type、sample_fps、reshape_size、decode_batch_sizedecode_keep_size參數生效。

STRING

class_list_file

類別列表文件路徑,文件內容每行格式為類別名或類別名:映射類別名。

oss://path/to/your/classlit

’’

test_ratio

測試數據分割比例。如果取值為0,則所有數據轉換為訓練數據。如果取值為0.1,則表示10%的數據作為驗證集。

FLOAT

0.1

max_image_size

圖片最大邊限制。如果配置了該參數,則大圖片會被Resize后存入TFRecord,從而節省存儲、提高數據讀取速度。

INT

None,即不指定該參數

max_test_image_size

max_image_size,用于配置測試數據。

INT

${max_image_size}

default_class

默認類別名稱,在class_list中未找到的類別均會映射到該名稱。

STRING

None

error_class

錯誤類別名稱,含有該類別的物體和Box會被過濾,不參與訓練。

STRING

None,即不指定該參數

ignore_class

忽略類別名稱,只用于檢測模型,含有該類別的Box在訓練中會被忽略。

STRING

None,即不指定該參數

converter_class

轉換類名稱,取值包括:

  • pai itag labeling format:PAI iTAG標注平臺產生的標注文件格式。

  • pai labeling format(old version):PAI標注平臺產生的標注文件格式(舊版)。

  • qince labeling format:親測平臺產生的標注文件格式。

  • ssl labeling format:平臺定義的圖片自監督訓練所需格式。

STRING

pai labeling format(old version)

seperator

分隔符,用于標記內容的Split。

STRING

None,即不指定該參數

image_format

TFRecord中圖片的編碼方式。常用圖像編碼方式如下所示:

  • jpg

  • png

  • bmp

STRING

jpg

read_parallel_num

讀取并發數。

INT

10

write_parallel_num

TFRecord并發數。

INT

1

num_samples_per_tfrecord

每個TFRecord保存圖片數。

INT

256

user_defined_converter_path

自定義converter代碼路徑,支持HTTPOSS路徑。例如http://path/to/your/converter.py

STRING

user_defined_generator_path

自定義generator代碼路徑,支持HTTPOSS路徑。例如http://path/to/your/generator.py。

STRING

generator_class

自定義generator類名

STRING

char_replace_map_path

字符映射替換文件。格式為CSV文件,包含如下兩列:

  • original:原字符串。

  • replaced:替換字符串,即使用replaced替換original。

STRING

None,即不指定該參數。

default_char_dict_path

字符到ID映射文件路徑,每一行是一個字符, 第k行的字符IDk-1

STRING

None,即不指定該參數。

decode_type

視頻解碼方式。取值范圍為:

  • 1:Intra only

  • 2:Keyframe only

  • 3:Without bidir

  • 4:Decode all

INT

4

sample_fps

抽幀頻率。

FLOAT

5

reshape_size

輸出幀的大小。

INT

224

decode_batch_size

每次Decode步驟中的Batch大小。

INT

10

decode_keep_size

不同BatchOverlap的幀數量。

INT

0