Spark是独立的,所以集群安装的时候,不像hive,hbase等需要先安装hadoop,除非文件保存在hadoop上,才需要安装hadoop集群。
如果虚拟机安装,点击阅读推荐配置
前提环境:
1、安装了JDK1.7及以上版本的Linux机器
2、各台机器间SSH免密码登录已配置。
3、各台Linux防火墙已关闭,时间已同步。
 
SSH配置教程
 
时间同步教程
 
步骤:
1、下载spark安装包
2、解压
3、修改spark-env.sh
4、修改 slaves
5、scp -r 到其他节点
6、start-all.sh 启动
7、浏览器查看
 
每步详情
1、下载spark安装包
http://spark.apache.org/downloads.html
 
选择的版本的时候注意安装的hadoop版本,选择相应的版本
 
2、解压
略
 
3、修改spark-env.sh
在后面加入
export JAVA_HOME=/jdk1.8.0_73
 export SPARK_MASTER_HOST=nbdo1
 export SPARK_MASTER_PORT=7077
 
 
如果安装了hadoop,可以配置下
export HADOOP_CONF_DIR=/home/hadoop/hadoop/etc/hadoop
 
 
export SPARK_WORKER_CORES=3     //每个Worker使用的CPU核数
 export SPARK_WORKER_INSTANCES=2   //每个Slave中启动几个Worker实例
 export SPARK_WORKER_MEMORY=1G    //每个Worker使用多大的内存
 export SPARK_WORKER_WEBUI_PORT=8081 //Worker的WebUI端口号
 export SPARK_EXECUTOR_CORES=1       //每个Executor使用使用的核数
 export SPARK_EXECUTOR_MEMORY=1G     //每个Executor使用的内存
 
每台服务器上,启动2个worker实例,每个worker用3个cpu核心,1GB内存
worker实例数:机器数*每台机器上的worker实例数    
 
 
 
 
 
4、修改 slaves
nbdo2
nbdo3
 
(我有三台测试机,nbdo1,nbdo2,nbdo3。
nbdo1作为了master了)
 
5、scp -r 到其他节点
略
 
6、start-all.sh 启动
在master节点上,进入spark安装目录的sbin下
[hadoop@nbdo1 sbin]$ ./start-all.sh 
 
(不要直接输入 start-all.sh,hadoop启动脚本也是start-all.sh)
 
7、浏览器查看
ip地址或域名:8080端口访问
http://nbdo1:8080/