终于开始看Spark源码了,先从最常用的spark-shell脚本开始吧。不要觉得一个启动脚本有什么东东,其实里面还是有很多知识点的。另外,从启动脚本入手,是寻找代码入口最简单的方法,很多开源框架,其实都可以通过这种方式来寻找源码入口。
先来介绍一下Spark-shell是什么?
Spark-shell是提供给用户即时交互的一个命令窗口,你可以在里面编写spark代码,然后根据你的命令立即进行运算。这种东西也被叫做REPL,(Read-Eval-PrintLoop)交互式开发环境。
先来粗略的看一眼,其实没有多少代码:
#!/usr/bin/envbash
#ShellscriptforstartingtheSparkShellREPL
cygwin=false
case"`uname`"in
CYGWIN*)cygwin=true;;
esac
#Enterposixmodeforbash
set-oposix
if[-z"${SPARK_HOME}"];then
exportSPARK_HOME="$(cd"`dirname"$0"`"/..;pwd)"
fi
export_SPARK_CMD_USAGE="Usage:./bin/spark-shell[options]"
#SPARK-4161:scaladoesnotassumeuseofthejavaclasspath,
#soweneedtoaddthe"-Dscala.usejavacp=true"flagmanually.We
#dothisspecificallyfortheSparkshellbecausethescalaREPL
#hasitsownclassloader,andanyadditionalclasspathspecified
#throughspark.driver.extraClassPathisnotautomaticallypropagated.
SPARK_SUBMIT_OPTS="$SPARK_SUBMIT_OPTS-Dscala.usejavacp=true"
functionmain(){
if$cygwin;then
#WorkaroundforissueinvolvingJLineandCygwin
#(seehttp://sourceforge.net/p/jline/bugs/40/).
#Ifyou'reusingtheMinttyterminalemulatorinCygwin,mayneedtosetthe
#"Backspacesends^H"settingin"Keys"sectionoftheMinttyoptions
#(seehttps://github.com/sbt/sbt/issues/562).
stty-icanonmin1-echo>/dev/null2>&1
exportSPARK_SUBMIT_OPTS="$SPARK_SUBMIT_OPTS-Djline.terminal=unix"
"${SPARK_HOME}"/bin/spark-submit--classorg.apache.spark.repl.Main--name"Sparkshell""$@"
sttyicanonecho>/dev/null2>&1
else
exportSPARK_SUBMIT_OPTS
"${SPARK_HOME}"/bin/spark-submit--classorg.apache.spark.repl.Main--name"Sparkshell""$@"
fi
}
#Copyrestore-TTY-on-exitfunctionsfromScalascriptsospark-shellexitsproperlyevenin
#binarydistributionofSparkwhereScalaisnotinstalled
exit_status=127
saved_stty=""
#restoresttysettings(echoinparticular)
functionrestoreSttySettings(){
stty$saved_stty
saved_stty=""
}
functiononExit(){
if[["$saved_stty"!=""]];then
restoreSttySettings
fi
exit$exit_status
}
#toreenableechoifweareinterruptedbeforecompleting.
traponExitINT
#saveterminalsettings
saved_stty=$(stty-g2>/dev/null)
#clearonerrorsowedon'tlatertrytorestorethem
if[[!$?]];then
saved_stty=""
fi
main"$@"
#recordtheexitstatuslestitbeoverwritten:
#thenreenableechoandpropagatethecode.
exit_status=$?
onExit
其实这个脚本只能看出来是调用了spark-submit,后续会再分析一下spark-submit的作用(它里面会调用spark-class,这才是执行方法的最终执行者,前面都是传参而已)。
最前面的:
cygwin=false
case"`uname`"in
CYGWIN*)cygwin=true;;
esac
这个在很多的启动脚本中都可以看到,是检查你的系统是否属于cygwin。使用了uname命令,这个命令通常用于查询系统的名字或者内核版本号。
uname可以查看操作系统的名字,详情参考manuname.直接输入uname,一般显示Linux;使用uname-r可以查看内核版本;使用uname-a可以查看所有的信息:
set-oposix
设置shell的模式为POSIX标准模式,不同的模式对于一些命令和操作不一样。Posix:PortableOperatingSystemInterfaceofUnix它提供了操作系统的一套接口。
if[-z"${SPARK_HOME}"];then
exportSPARK_HOME="$(cd"`dirname"$0"`"/..;pwd)"
fi
这句在很多启动脚本中也比较常见,即获取应用的主目录。因为一般的应用都是这样的:
app主目录/bin启动脚本
app主目录/lib相关jar
app主目录/logs日志
而启动脚本一般放在bin下面,所以应用的主目录就是bin的父目录而已。
第一个if语句if[-z"${SPARK_HOME}"];then用于检测是否设置过SPARK_HOME环境变量。
在shell里面条件表达式有非常多的用法,比如:
#文件表达式
if[-ffile]如果文件存在
if[-d...]如果目录存在
if[-sfile]如果文件存在且非空
if[-rfile]如果文件存在且可读
if[-wfile]如果文件存在且可写
if[-xfile]如果文件存在且可执行
#整数变量表达式
if[int1-eqint2]如果int1等于int2
if[int1-neint2]如果不等于
if[int1-geint2]如果>=
if[int1-gtint2]如果>
if[int1-leint2]如果<=
if[int1-ltint2]如果<
#字符串变量表达式
If[$a=$b]如果string1等于string2,字符串允许使用赋值号做等号
if[$string1!=$string2]如果string1不等于string2
if[-n$string]如果string非空(非0),返回0(true)
if[-z$string]如果string为空
if[$sting]如果string非空,返回0(和-n类似)
所以上面的那句判断,就是检查${SPARK_HOME}是否为空的意思。
export命令用于在当前的登陆中,设置某个环境变量,如果注销,设置就失效了。所以如果你想要永久配置环境变量,还是得去/etc/profile里面去看。
所以就应该能明白了,exportSPARK_HOME="$(cd"dirname"$0""/..;pwd)"这句话就是设置SPARK_HOME环境变量的。那么里面那一坨是干嘛的呢?咱们一点一点看。
首先$0是shell中的变量符号,类似的还有很多:
$#是传给脚本的参数个数
$0是脚本本身的名字
$1是传递给该shell脚本的第一个参数
$2是传递给该shell脚本的第二个参数
$@是传给脚本的所有参数的列表
$*是以一个单字符串显示所有向脚本传递的参数,与位置变量不同,参数可超过9个
$$是脚本运行的当前进程ID号
$?是显示最后命令的退出状态,0表示没有错误,其他表示有错误
最常用的应该是$0和$@.
在说说dirname命令,这个命令用于显示某个文件所在的路径。比如我有一个文件/home/xinghl/test/test1,在test目录中使用dirnametest1,就会返回:
[root@localnode3test]#pwd
/home/xinghl/test
[root@localnode3test]#ll
总用量4
-rw-r--r--1rootroot272月1710:48test1
[root@localnode3test]#dirnametest1
.
我们要的其实就是那个点,在linux中.代表当前目录。..代表父目录。因此cd./..就是进入父目录的意思。
后面的pwd是显示当前路径。
整个连起来就是:
先获取当前路径
脚本路径进入到应用主目录
pwd显示路径,赋值给SPARK_HOME
有人就会问了,这不多此一举么?干嘛不直接写cd..,这是因为你在哪执行spark-shell是不一定的。因此cd命令直接cd..会根据你的目录而改变。举个例子:
[root@localnode3test]#pwd
/home/xinghl/test
[root@localnode3test]#cattest.sh
cd./..
echo`pwd`
[root@localnode3test]#shtest.sh
/home/xinghl
[root@localnode3test]#cd..
[root@localnode3xinghl]#shtest/test.sh
/home
看出来作用了吧!
SPARK_SUBMIT_OPTS="$SPARK_SUBMIT_OPTS-Dscala.usejavacp=true"
因为scala默认不会使用javaclasspath,因此这里需要手动设置一下,让scala使用java。
先来介绍一下Spark-shell是什么?
Spark-shell是提供给用户即时交互的一个命令窗口,你可以在里面编写spark代码,然后根据你的命令立即进行运算。这种东西也被叫做REPL,(Read-Eval-PrintLoop)交互式开发环境。
先来粗略的看一眼,其实没有多少代码:
#!/usr/bin/envbash
#ShellscriptforstartingtheSparkShellREPL
cygwin=false
case"`uname`"in
CYGWIN*)cygwin=true;;
esac
#Enterposixmodeforbash
set-oposix
if[-z"${SPARK_HOME}"];then
exportSPARK_HOME="$(cd"`dirname"$0"`"/..;pwd)"
fi
export_SPARK_CMD_USAGE="Usage:./bin/spark-shell[options]"
#SPARK-4161:scaladoesnotassumeuseofthejavaclasspath,
#soweneedtoaddthe"-Dscala.usejavacp=true"flagmanually.We
#dothisspecificallyfortheSparkshellbecausethescalaREPL
#hasitsownclassloader,andanyadditionalclasspathspecified
#throughspark.driver.extraClassPathisnotautomaticallypropagated.
SPARK_SUBMIT_OPTS="$SPARK_SUBMIT_OPTS-Dscala.usejavacp=true"
functionmain(){
if$cygwin;then
#WorkaroundforissueinvolvingJLineandCygwin
#(seehttp://sourceforge.net/p/jline/bugs/40/).
#Ifyou'reusingtheMinttyterminalemulatorinCygwin,mayneedtosetthe
#"Backspacesends^H"settingin"Keys"sectionoftheMinttyoptions
#(seehttps://github.com/sbt/sbt/issues/562).
stty-icanonmin1-echo>/dev/null2>&1
exportSPARK_SUBMIT_OPTS="$SPARK_SUBMIT_OPTS-Djline.terminal=unix"
"${SPARK_HOME}"/bin/spark-submit--classorg.apache.spark.repl.Main--name"Sparkshell""$@"
sttyicanonecho>/dev/null2>&1
else
exportSPARK_SUBMIT_OPTS
"${SPARK_HOME}"/bin/spark-submit--classorg.apache.spark.repl.Main--name"Sparkshell""$@"
fi
}
#Copyrestore-TTY-on-exitfunctionsfromScalascriptsospark-shellexitsproperlyevenin
#binarydistributionofSparkwhereScalaisnotinstalled
exit_status=127
saved_stty=""
#restoresttysettings(echoinparticular)
functionrestoreSttySettings(){
stty$saved_stty
saved_stty=""
}
functiononExit(){
if[["$saved_stty"!=""]];then
restoreSttySettings
fi
exit$exit_status
}
#toreenableechoifweareinterruptedbeforecompleting.
traponExitINT
#saveterminalsettings
saved_stty=$(stty-g2>/dev/null)
#clearonerrorsowedon'tlatertrytorestorethem
if[[!$?]];then
saved_stty=""
fi
main"$@"
#recordtheexitstatuslestitbeoverwritten:
#thenreenableechoandpropagatethecode.
exit_status=$?
onExit
其实这个脚本只能看出来是调用了spark-submit,后续会再分析一下spark-submit的作用(它里面会调用spark-class,这才是执行方法的最终执行者,前面都是传参而已)。
最前面的:
cygwin=false
case"`uname`"in
CYGWIN*)cygwin=true;;
esac
这个在很多的启动脚本中都可以看到,是检查你的系统是否属于cygwin。使用了uname命令,这个命令通常用于查询系统的名字或者内核版本号。
uname可以查看操作系统的名字,详情参考manuname.直接输入uname,一般显示Linux;使用uname-r可以查看内核版本;使用uname-a可以查看所有的信息:
set-oposix
设置shell的模式为POSIX标准模式,不同的模式对于一些命令和操作不一样。Posix:PortableOperatingSystemInterfaceofUnix它提供了操作系统的一套接口。
if[-z"${SPARK_HOME}"];then
exportSPARK_HOME="$(cd"`dirname"$0"`"/..;pwd)"
fi
这句在很多启动脚本中也比较常见,即获取应用的主目录。因为一般的应用都是这样的:
app主目录/bin启动脚本
app主目录/lib相关jar
app主目录/logs日志
而启动脚本一般放在bin下面,所以应用的主目录就是bin的父目录而已。
第一个if语句if[-z"${SPARK_HOME}"];then用于检测是否设置过SPARK_HOME环境变量。
在shell里面条件表达式有非常多的用法,比如:
#文件表达式
if[-ffile]如果文件存在
if[-d...]如果目录存在
if[-sfile]如果文件存在且非空
if[-rfile]如果文件存在且可读
if[-wfile]如果文件存在且可写
if[-xfile]如果文件存在且可执行
#整数变量表达式
if[int1-eqint2]如果int1等于int2
if[int1-neint2]如果不等于
if[int1-geint2]如果>=
if[int1-gtint2]如果>
if[int1-leint2]如果<=
if[int1-ltint2]如果<
#字符串变量表达式
If[$a=$b]如果string1等于string2,字符串允许使用赋值号做等号
if[$string1!=$string2]如果string1不等于string2
if[-n$string]如果string非空(非0),返回0(true)
if[-z$string]如果string为空
if[$sting]如果string非空,返回0(和-n类似)
所以上面的那句判断,就是检查${SPARK_HOME}是否为空的意思。
export命令用于在当前的登陆中,设置某个环境变量,如果注销,设置就失效了。所以如果你想要永久配置环境变量,还是得去/etc/profile里面去看。
所以就应该能明白了,exportSPARK_HOME="$(cd"dirname"$0""/..;pwd)"这句话就是设置SPARK_HOME环境变量的。那么里面那一坨是干嘛的呢?咱们一点一点看。
首先$0是shell中的变量符号,类似的还有很多:
$#是传给脚本的参数个数
$0是脚本本身的名字
$1是传递给该shell脚本的第一个参数
$2是传递给该shell脚本的第二个参数
$@是传给脚本的所有参数的列表
$*是以一个单字符串显示所有向脚本传递的参数,与位置变量不同,参数可超过9个
$$是脚本运行的当前进程ID号
$?是显示最后命令的退出状态,0表示没有错误,其他表示有错误
最常用的应该是$0和$@.
在说说dirname命令,这个命令用于显示某个文件所在的路径。比如我有一个文件/home/xinghl/test/test1,在test目录中使用dirnametest1,就会返回:
[root@localnode3test]#pwd
/home/xinghl/test
[root@localnode3test]#ll
总用量4
-rw-r--r--1rootroot272月1710:48test1
[root@localnode3test]#dirnametest1
.
我们要的其实就是那个点,在linux中.代表当前目录。..代表父目录。因此cd./..就是进入父目录的意思。
后面的pwd是显示当前路径。
整个连起来就是:
先获取当前路径
脚本路径进入到应用主目录
pwd显示路径,赋值给SPARK_HOME
有人就会问了,这不多此一举么?干嘛不直接写cd..,这是因为你在哪执行spark-shell是不一定的。因此cd命令直接cd..会根据你的目录而改变。举个例子:
[root@localnode3test]#pwd
/home/xinghl/test
[root@localnode3test]#cattest.sh
cd./..
echo`pwd`
[root@localnode3test]#shtest.sh
/home/xinghl
[root@localnode3test]#cd..
[root@localnode3xinghl]#shtest/test.sh
/home
看出来作用了吧!
SPARK_SUBMIT_OPTS="$SPARK_SUBMIT_OPTS-Dscala.usejavacp=true"
因为scala默认不会使用javaclasspath,因此这里需要手动设置一下,让scala使用java。
