Dataphin支持對開發的實時任務代碼進行數據采樣或者手動上傳并進行本地調試,以幫助您保障代碼任務的正確性,避免人為錯誤或遺漏。本文將為您介紹如何調試實時任務。
使用限制
Blink僅支持引擎版本3.6.0及以上進行本地調試。
不支持DataStream任務進行調試。
調試任務操作入口
實時模式調試
在調試配置對話框的選擇采樣模式頁簽中,選擇實時模式-FLINK Stream任務。
單擊下一步。
在調試配置對話框中,選擇調試數據來源。
手動上傳數據(本地調試方式)
即通過本地調試方式手動上傳數據進行調試。上傳數據方式包括手動上傳樣例數據文件、手動輸入數據、自動抽樣數據。
手動上傳樣例數據文件
您可以通過上傳數據的方式,手動上傳本地數據。上傳本地數據前需要先下載樣例,樣例由Dataphin自動識別讀寫的表和表的schema信息生成的csv格式樣例模板,您可根據下載的樣例編輯需要上傳的數據,單擊上傳后,數據自動填充至元數據采樣區域。
手動輸入數據
適用于采集的數據比較少,或者需要修改已采集到的數據的場景。
自動抽樣數據
自動抽樣到的數據是隨機的,所以適用于對采集到的數據沒有限制的場景。針對HBase、MySQL、MaxCompute、DataHub、Kafka數據源支持自動抽樣數據,您可單擊自動抽樣,進行抽樣數據。
說明Kafka中支持json、csv、canal-json、maxwell-json、debezium-json數據格式的自動抽樣。
Kafka自動抽樣僅支持無認證和用戶名+密碼認證方式,不支持SSL。
Kafka自動抽樣時,支持選擇讀取數據范圍,最大抽樣條數為100條。
完成所有數據表的元數據采樣后,單擊的確定。
在Result頁面,即可查看調試結果。
手動上傳數據(本地調試方式)
離線模式調試
在調試配置對話框的選擇采樣模式頁簽中,選擇離線模式-FLINK Batch任務。
單擊下一步。
在調試配置對話框中,選擇調試數據來源。
手動上傳數據(本地調試方式)
即通過本地調試方式手動上傳數據進行調試。上傳數據方式包括手動上傳樣例數據文件、手動輸入數據、自動抽樣數據。
手動上傳樣例數據文件
您可以通過上傳數據的方式,手動上傳本地數據。上傳本地數據前需要先下載樣例,樣例由Dataphin自動識別讀寫的表和表的schema信息生成的csv格式樣例模板,您可根據下載的樣例編輯需要上傳的數據,單擊上傳后,數據自動填充至元數據采樣區域。
手動輸入數據
適用于采集的數據比較少,或者需要修改已采集到的數據的場景。
自動抽樣數據
自動抽樣到的數據是隨機的,所以適用于對采集到的數據沒有限制的場景。針對HBase、MySQL、MaxCompute、DataHub、Kafka數據源支持自動抽樣數據,您可單擊自動抽樣,進行抽樣數據。
說明Kafka中支持json、csv、canal-json、maxwell-json、debezium-json數據格式的自動抽樣。
Kafka自動抽樣僅支持無認證和用戶名+密碼認證方式,不支持SSL。
Kafka自動抽樣時,支持選擇讀取數據范圍,最大抽樣條數為100條。
完成所有數據表的元數據采樣后,單擊頁面下方的確定。
在Result頁面,即可查看調試數據、中間結果和調試結果。
附錄:自動抽樣的調試數據
通過本地調試的自動抽樣調試任務時,讀取的調試數據根據元表的配置決定。詳細說明如下:
元表屬性的任務調試時默認讀取參數選中開發表。
若任務中使用的是
Project_Name_dev.元表名
,則自動抽取開發元表。如果數據源無開發元表,則不支持自動抽樣。若任務中使用的是
Project_Name.元表名
,則自動抽取生產元表。如果您沒有生產環境元表權限,則會報錯。請先申請生產表權限,請參見申請表權限。若任務中使用的是
${Project_Name}.元表名
或元表名
,則自動抽取開發元表。如果數據源無開發元表,則不支持自動抽樣。
元表的任務調試時默認讀取參數選中生產表。
若任務中使用的是
Project_Name_dev.元表名
,則自動抽取開發表。如果數據源無開發元表,則不支持自動抽樣。若任務中使用的是
Project_Name.元表名
,則自動抽取生產元表。若任務中使用的是
${Project_Name}.元表名
或元表名
,系統將自動根據參數中的設置替換${project_name}
變量。并根據參數的實際項目(開發或生產項目),確定使用生產元表還是開發元表;若未指定${project_name}
,則自動抽取生產元表。