DataWorks為您提供ODPS Script節點,其SQL開發模式是MaxCompute基于2.0的SQL引擎提供的腳本開發模式。本文為您介紹ODPS Script節點的使用。
前提條件
已創建ODPS Script節點,詳情請參見創建并管理MaxCompute節點。
背景信息
MaxCompute當前的SQL引擎支持腳本模式SQL(Script Mode SQL),在腳本模式下編譯腳本時,一個多語句的SQL腳本文件將被作為一個整體進行編譯,無需對單個語句進行編譯,適合用于改寫需要層層嵌套子查詢的單個語句,或因為腳本復雜性而不得不拆成多個語句的腳本。在提交運行時,SQL腳本文件會被整體提交,并生成一個執行計劃,保證只需排隊一次、執行一次,讓您能充分利用MaxCompute的資源,詳情請參見SQL腳本模式。在DataWorks中,您可通過ODPS Script節點實現MaxCompute SQL腳本模式開發任務代碼,并調度其他作業的集成操作。
適用場景
腳本模式的適用場景如下:
腳本模式適合用來改寫需要層層嵌套子查詢的單個語句,或者因為腳本復雜性而不得不拆成多個語句的腳本。
如果多個輸入的數據源數據準備完成的時間間隔很長(例如一個01:00可以準備好,一個07:00可以準備好),則不適合通過table variable銜接拼裝為一個大的腳本模式SQL。
腳本模式下,您可以對一個變量賦常量值,然后執行
SELECT * FROM 變量
語句轉化為標量與其它列進行計算。常量值也可以存放在一個單行的表中,命令示例如下。轉化語法請參見子查詢(SUBQUERY)。@a := SELECT 10; --對@a賦值常量10,或者賦值存在一個單行表t1中,SELECT col1 FROM t1。 @b := SELECT key,value+(SELECT * FROM @a) FROM t2 WHERE key >10000; --t2表中value值與@a中的值進行計算。 SELECT * FROM @b;
語法結構
一個ODPS Script腳本的完整形式為SET語句>DDL語句>DML語句,每種類型語句都可以有0到多個語句,但不同類型的語句不能混合。多個語句以@開始,表示變量連接。語法如下:
--SET語句
set odps.sql.type.system.odps2=true;
[set odps.stage.reducer.num=***;]
[...]
--DDL語句
create table table1 xxx;
[create table table2 xxx;]
[...]
--DML語句
@var1 := SELECT [ALL | DISTINCT] select_expr, select_expr, ...
FROM table3
[WHERE where_condition];
@var2 := SELECT [ALL | DISTINCT] select_expr, select_expr, ...
FROM table4
[WHERE where_condition];
@var3 := SELECT [ALL | DISTINCT] var1.select_expr, var2.select_expr, ...
FROM @var1 join @var2 on ...;
INSERT OVERWRITE|INTO TABLE [PARTITION (partcol1=val1, partcol2=val2 ...)]
SELECT [ALL | DISTINCT] select_expr, select_expr, ...
FROM @var3;
[@var4 := SELECT [ALL | DISTINCT] var1.select_expr, var.select_expr, ... FROM @var1
UNION ALL | UNION
SELECT [ALL | DISTINCT] var1.select_expr, var.select_expr, ... FROM @var2;
CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name
AS
SELECT [ALL | DISTINCT] select_expr, select_expr, ...
FROM var4;]
使用限制
ODPS Script節點的使用限制如下:
腳本模式支持SET語句、部分DDL語句(結果是屏顯類型的語句除外,例如
desc
、show
)和DML語句。
一個腳本,目前最多支持一個屏幕顯示結果的語句(例如單獨的Select語句),否則會報錯。不建議您在腳本中執行屏幕顯示的Select語句。
一個腳本,目前最多支持一個
Create table as
語句,并且必須是最后一句。建議將建表語句和Insert語句分開寫。腳本模式下,如果有一個語句失敗,整個腳本的語句都不會執行成功。
腳本模式下,只有所有輸入的數據都準備完成,才會生成一個作業進行數據處理。
腳本模式下,如果一個表被寫入后又被讀取,會報錯。
insert overwrite table src2 select * from src where key > 0; @a := select * from src2; select * from @a;
為避免先寫后讀,可以進行如下修改。
@a := select * from src where key > 0; insert overwrite table src2 select * from @a; select * from @a;
編輯代碼:簡單示例
MaxCompute Script Mode的SQL編譯較為簡單,您只需要按照業務邏輯,用類似于普通編程語言的方式進行編譯,無需考慮如何組織語句。以下以一個簡單示例為您介紹ODPS Script節點的使用。
create table if not exists dest(key string , value bigint) ;
create table if not exists dest2(key string,value bigint ) ;
@a := select * from src where value >0;
@b := select * from src2 where key is not null;
@c := select * from src3 where value is not null;
@d := select a.key,b.value from @a left outer join @b on a.key=b.key and b.value>0;
@e := select a.key,c.value from @a inner join @c on a.key=c.key;
@f := select * from @d union select * from @e union select * from @a;
insert overwrite table dest select * from @f;
@g := select e.key,c.value from @e join @c on e.key=c.key;
insert overwrite table dest2 SELECT * from @g;
本示例中需要用到的三張表src、src1、src2,建表語句如下:
--創建表
create table if not EXISTS src(key string ,value BIGINT);
insert into src values ('1',11) ;
insert into src values ('1',11) ;
create table if not EXISTS src2(key string ,value BIGINT);
insert into src2 values ('1',22);
insert into src2 values ('2',22);
create table if not EXISTS src3(key string ,value BIGINT);
insert into src3 values ('1',33);
insert into src3 values ('3',33);
編輯代碼:進階示例
MaxCompute腳本模式支持IF語句,IF語句可以使程序根據條件,自動選擇執行邏輯。MaxCompute的IF語法根據Condition類型分為BOOLEAN類型,以及BOOLEAN的Scalar SubQuery。
IF條件為BOOLEAN類型表達式
這種類型的
IF ELSE
語句可以在編譯階段決定執行哪個分支,示例如下:--數據處理 set odps.sql.allow.fullscan=true; set odps.optimizer.cbo.rule.filter.black=LM; @date := '${var}'; @row TABLE(key int,value bigint); --聲明變量row,其類型為Table,schema為string. IF ( cast(@date as bigint) % 2 == 0 ) BEGIN @row := SELECT key,value from src1; END ELSE BEGIN @row := SELECT key,value from src2; END INSERT OVERWRITE TABLE dest1 partition(p='${var}') SELECT key,value FROM @row;
說明代碼中定義了名為var的變量,您需要在調度參數配置處為var變量進行賦值。
IF條件為BOOLEAN的Scalar SubQuery
這種類型的
IF ELSE
語句在編譯階段無法決定執行哪個分支,在運行時才能決定。因此,需要提交多個作業,示例如下:@i bigint; @t table(id bigint, value bigint); IF ((SELECT count(*) FROM src WHERE a = '5') > 1) BEGIN @i := 1; @t := select @i, @i*2; END ELSE BEGIN @i := 2; @t := select @i, @i*2; END select id, value from @t;
嵌入式UDF開發
此外,您也可以通過將Java或Python代碼嵌入SQL腳本的方式,使用MaxCompute腳本模式實現代碼嵌入式UDF(Embedded UDF)開發,詳情請參見UDF(嵌入式)。
后續步驟
當您完成當前節點的任務開發后,通常您可進行以下操作。
調度配置:配置節點的周期性調度屬性。任務需要周期性調度運行時,您需要設置節點后續實際運行過程中的重跑屬性、調度依賴關系等,操作詳情請參見任務調度屬性配置概述。
任務調試:對當前節點的代碼進行測試運行,確認代碼邏輯符合預期,操作詳情請參見任務調試流程。
任務發布:完成所有開發相關操作后,您需要將所有任務節點進行發布,發布后節點即會根據調度配置結果進行周期性運行,操作詳情請參見發布任務。