配置文件¶
工作流¶
示例¶
配置文件:
digraph wordcount {
dummy -> step1
dummy -> step2
step1 [
name="step1"
type="hadoop"
vars="$date=${date:YYYYMMDD}"
input="/tmp/hpipe/examples/wordcount/input/part-*"
output="/tmp/hpipe/examples/wordcount/output/${bizdate}/step1"
mapper="cat"
reducer="wc -l"
mapred.reduce.tasks=1
test.custom.val="today is ${date}, yestoday is ${bizdate}, and yestoday is ${bizdate}"
]
step2 [
name="step2"
type="hadoop"
vars="$date=$bizdate"
input="/tmp/hpipe/examples/wordcount/input/part-*"
output="/tmp/hpipe/examples/wordcount/output/${bizdate}/step2"
mapper="cat"
reducer="wc -l"
]
dummy [
name="dummy"
type="dummy"
vars="$bizdate=${date:YYYYMMDD}+2*$day"
]
}
任务节点¶
公共配置¶
name¶
节点名。
type¶
节点类型。
output¶
节点输出路径。可以使用变量,例如:output="/tmp/example/${bizdate}/"
。
vars¶
定义变量¶
语法如下:
分号分割的若干赋值语句
左值
$开头的变量名
右值
int整数
字符串
单引号扩起来的字符串:
$name='test'
其它变量
$号开头的变量名:
$date=$bizdate
时间变量扩展
按照格式获取时间:
$date=${date:YYYYMMDD}
nonstrict¶
不要求前置条件全成功。例如:nonstrict="true"
。