PAI-EasyVision提供端到端文字識別模型的訓練及預測功能,本文為您介紹如何通過PAI命令進行端到端文字識別模型訓練。

PAI-EasyVision對配置進行了簡化,您通過-Dparam_config即可配置常用參數,無需了解PAI-EasyVision的配置文件規則和邏輯。 如果需要嘗試更復雜的模型配置,您可以通過PAI-EasyVision命令中的-Dconfig直接傳遞配置文件進行端到端文字識別模型訓練。端到端文字識別模型的主要算法框架如下圖所示。算法框架

端到端文字識別訓練

pai -name easy_vision_ext
           -Dbuckets='oss://{bucket_name}.{oss_host}/{path}'
           -Darn='acs:ram::*********:role/aliyunodpspaidefaultrole'
           -DgpuRequired=100
           -Dcmd train
           -Dparam_config '
             --model_type TextEnd2End
             --backbone  resnet_v1_50
             --num_classes 1
             --use_pretrained_model true
             --train_batch_size 1
             --test_batch_size 1
             --image_min_sizes 960
             --image_max_sizes 1440
             --initial_learning_rate 0.0001
             --optimizer adam
             --lr_type exponential_decay
             --decay_epochs 40
             --decay_factor 0.5
             --num_epochs 10
             --staircase true
             --predict_text_direction true
             --text_direction_trainable true
             --text_direction_type smart_unified
             --feature_gather_type fixed_height_pyramid
             --train_data oss://pai-vision-data-sh/data/recipt_text/end2end_tfrecords/train_*.tfrecord
             --test_data oss://pai-vision-data-sh/data/recipt_text/end2end_tfrecords/test.tfrecord
             --model_dir oss://pai-vision-data-sh/test/recipt_text/text_end2end_krcnn_resnet50_attn
           '

參數說明

參數 是否必選 描述 參數值格式 默認值
buckets OSS Bucket地址。 oss://{bucket_name}.{oss_host}/{path}
arn 訪問OSS的授權,其獲取方式請參見PAI-TF任務參數介紹IO相關參數說明部分。 acs:ram::*:role/aliyunodpspaidefaultrole
cluster 分布式訓練參數相關配置。 JSON格式字符串 “”
gpuRequired 標識是否使用GPU,默認使用一張卡。如果取值200,則一個Worker申請2張卡 100 100
cmd EasyVision任務類型。模型訓練時,該參數應取值為train train
param_config 模型訓練參數,其格式與Python Argparser參數格式一致,詳情請參見param_config說明 STRING

param_config說明

param_config包含若干模型配置相關參數,格式為Python Argparser,示例如下。
-Dparam_config = '
--backbone resnet_v1_50
--model_dir oss://your/bucket/exp_dir
'
說明 所有字符串類型的參數,其取值均不加引號。
參數 是否必選 描述 參數值格式 默認值
model_type 訓練模型類型。進行端到端文字識別訓練時,該參數的取值為TextEnd2End STRING
backbone 端到端文字識別模型使用的Backbone,取值包括:
  • resnet_v1_50
  • resnet_v1_101
STRING
weight_decay L2 Regularization的大小。 FLOAT 1e-4
num_classes 檢測類別數量,默認通過分析數據集獲得該參數值。 21 -1
anchor_scales Anchor框大小,與Resize后的輸入圖片尺度相同。僅支持為該參數指定一個值,表示分辨率最高LayerAnchor大小,共5Layer,后面每個LayerAnchor大小為前一Layer2倍。例如32,64,128,256,512 浮點列表,例如32(單一尺度)。 24
anchor_ratios Anchor寬高比。 浮點列表 0.2 0.5 1 2 5
predict_text_direction 是否預測文字行朝向。 BOOL false
text_direction_trainable 是否訓練文字行朝向預測。 BOOL false
text_direction_type 文字朝向預測的類型,取值包括:
  • normal:貪婪預測文字行方向。
  • unified:預測時將所有文字行朝向進行投票,得到統一的文字行方向。
  • smart_unified:預測時將除高大于寬兩倍的文字行朝向進行投票,得到統一的文字行方向
STRING normal
feature_gather_type 文字行特征抽取器類型,取值包括:
  • fixed_size:固定寬高抽取。
  • fixed_height:固定高度并保持寬高比抽取。
  • fixed_height_pyramid:從多尺度的特征中固定高度并保持寬高比抽取。
STRING fixed_height
feature_gather_aspect_ratio 文字行的寬高比。當feature_gather_type取值為fixed_size時,該參數表示特征被Resize后的寬高比。當feature_gather_type取值為fixed_height時,該參數表示特征Resize的最大寬高比約束。 FLOAT 40
feature_gather_batch_size 用于訓練的文字行Batch_size。 INT 160
recognition_norm_type 編碼器和文字行特征抽取器的Norm類型,取值包括:
  • batch_norm
  • group_norm
STRING group_norm
recognition_bn_trainable 編碼器和文字行特征抽取器的Batch norm是否可以訓練。當norm_type取值為batch_norm時,該參數生效。 BOOL false
encoder_type 編碼器類型,取值包括:
  • crnn:CNN+RNN編碼器。
  • cnn_line:CNN編碼器。
  • cnn_spatial:CNN編碼器,用于Spatial Attention。
STRING crnn
encoder_cnn_name 編碼器中使用的CNN類型,取值包括:
  • conv5_encoder
  • senet5_encoder
STRING senet5_encoder
encoder_num_layers 編碼器層數(通常指RNN層數,CNN不計算在內)。 INT 2
encoder_rnn_type 編碼器中使用的RNN類型,取值包括:
  • bi:雙向RNN Encoder。
  • uni:單向RNN Encoder。
STRING uni
encoder_hidden_size 編碼器中的隱藏層神經元數量。 INT 512
encoder_cell_type 編碼器中的RNN Cell類型,取值包括:
  • basic_lstm
  • gru
  • layer_norm_basic_lstm
  • nas
STRING basic_lstm
decoder_type 解碼器類型,取值包括:
  • attention
  • ctc
STRING attention
decoder_num_layers 解碼器層數。 INT 2
decoder_hidden_size 解碼器中的隱藏層神經元數量。 INT 512
decoder_cell_type 解碼器中的RNN Cell類型,取值包括:
  • basic_lstm
  • gru
  • layer_norm_basic_lstm
  • nas
STRING basic_lstm
embedding_size 字典的Embedding大小。 INT 64
beam_width Beam Search中的Beam Width。 INT 0
length_penalty_weight Beam Search中的Length Penalty,用于避免短序列傾向。 FLOAT 0.0
attention_mechanism 解碼器中的Attention類型,取值包括:
  • luongscaled_luongbahdanau
  • normed_bahdanau
STRING normed_bahdanau
aspect_ratio_min_jitter_coef 訓練時隨機擾動圖像寬高比的最小比例。如果取值為0,則表示關閉隨機擾動圖像寬高比。 FLOAT 0.8
aspect_ratio_max_jitter_coef 訓練時隨機擾動圖像寬高比的最大比例。如果取值為0,則表示關閉隨機擾動圖像寬高比。 FLOAT 1.2
random_rotation_angle 訓練時隨機旋轉圖像的角度,其取值為(-angle, angle)范圍內的隨機值。如果取值為0,則表示關閉隨機旋轉圖像。 FLOAT 10
random_crop_min_area 訓練時隨機裁切圖像的最小面積占比約束。如果取值為0,則表示關閉隨機裁切圖像。 FLOAT 0.1
random_crop_max_area 訓練時隨機裁切圖像的最大面積占比約束。如果取值為0,則表示關閉隨機裁切圖像。 FLOAT 1.0
random_crop_min_aspect_ratio 訓練時隨機裁切圖像的最小寬高比約束。如果取值為0,則表示關閉隨機裁切圖像。 FLOAT 0.2
random_crop_max_aspect_ratio 訓練時隨機裁切圖像的最大寬高比約束。如果取值為0,則表示關閉隨機裁切圖像。 FLOAT 5
image_min_sizes 圖片縮放大小最短邊。為支持Multi-scale Training,如果輸入多個Size,則前N-1個作為訓練配置,最后一個作為評估測試配置。否則,訓練與評估使用相同配置。 浮點列表 800
image_max_sizes 圖片縮放大小最長邊。為支持Multi-scale Training,如果輸入多個Size,則前N-1個作為訓練配置,最后一個作為評估測試配置。否則,訓練與評估使用相同配置。 浮點列表 1200
random_distort_color 是否在訓練時隨機擾動圖片的亮度、對比度及飽和度。 BOOL true
optimizer 優化方法,取值包括:
  • momentum:指sgd
  • adam
STRING momentum
lr_type 學習率調整策略,取值包括:
  • exponential_decay:指數衰減。
  • polynomial_decay:多項式衰減。

    其中num_steps自動配置為總訓練迭代次數,end_learning_rateinitial_learning_rate的千分之一

  • manual_step:手動指定各階段的學習率。

    通過decay_epochs 指定需要調整學習率的迭代輪數,通過learning_rates指定對應迭代輪數使用的學習率。

  • cosine_decay

    通過余弦曲線調整lr,詳情請參見論文。通過decay_epochs指定需要調整學習率的迭代輪數。

STRING exponential_decay
initial_learning_rate 初始學習率。 FLOAT 0.01
decay_epochs 如果使用exponential_decay,該參數對應tf.train.exponential.decay中的decay_steps,系統會自動根據訓練數據總數將decay_epochs轉換為decay_steps。例如,取值為10,通常是總Epoch數的1/2。 如果使用manual_step,該參數表示需要調整學習率的迭代輪數。例如16 18表示在16 Epoch18 Epoch對學習率進行調整。通常將這兩個值配置為總Epoch8/109/10。 整數列表,例如20 20 40 60 20
decay_factor tf.train.exponential.decay中的decay_factor FLOAT 0.95
staircase tf.train.exponential.decay中的staircase BOOL true
power tf.train.polynomial.decay 中的power FLOAT 0.9
learning_rates manual_step學習率調整策略中使用的參數,表示在指定Epoch中學習率的取值。 如果您指定的調整Epoch有兩個,則需要在此指定兩個Epoch對應的學習率。例如,如果decay_epoches20 40,則該將參數配置為0.001 0.0001,表示在20 Epoch學習率調整為0.001,40 Epoch學習率調整為0.0001。建議幾次調整的學習率依次為初始學習率的1/10、1/1001/1000。 浮點列表
lr_warmup 是否對學習率進行Warmup。 BOOL false
lr_warm_up_epochs 學習率Warmup的輪數。 FLOAT 1
train_data 訓練數據文件的OSS路徑。 oss://path/to/train_*.tfrecord
test_data 訓練過程中評估數據的OSS路徑。 oss://path/to/test_*.tfrecord
train_batch_size 訓練的Batch_size。 INT,例如32。
test_batch_size 評估的Batch_size。 INT,例如32。
train_num_readers 訓練數據并發讀取線程數。 INT 4
model_dir 訓練使用的OSS目錄。 oss://path/to/model
pretrained_model 預訓練模型的OSS路徑。如果指定該參數值,則在此模型基礎上Finetune。 oss://pai-vision-data-sh/pretrained_models/inception_v4.ckpt “”
use_pretrained_model 是否使用預訓練模型。 BOOL true
num_epochs 訓練迭代輪數。取值1表示對所有訓練數據都進行一次迭代。 INT,例如40。
num_test_example 訓練過程中評估數據條目數。取值 -1表示使用所有測試數據作為評估數據。 INT,例如2000。 -1
num_visualizations 評估過程可視化顯示的樣本數量。 INT 10
save_checkpoint_epochs 保存Checkpoint的頻率,以Epoch為單位。取值為1表示每完成一次訓練就保存一次Checkpoint。 INT 1
save_summary_epochs 保存Summary的頻率,以Epoch為單位。 取值為0.01表示每迭代1%的訓練數據就保存一次Summary。 FLOAT 0.01
num_train_images 總的訓練樣本數。如果使用自己生成的TFRecord,則需要指定該參數。 INT 0
label_map_path 類別映射文件。如果使用自己生成的TFRecord,則需要指定該參數。 STRING ””