CentOS7搭建Hadoop3集群教程

一、集群环境说明

1、用VMware安装3台Centos7虚拟机
2、虚拟机配置：2C，2G内存，50G存储
3、集群架构设计
从表格中，可以看出，Hadoop集群，主要有2个模块服务，一个是HDFS服务，一个是YARN服务

二、搭建集群

1、安装3台Centos7虚拟机
安装教程：VMware安装Centos7详细教程及初始化配置

三台虚拟机固定IP：192.168.31.110、192.168.31.111、192.168.31.112
三台主机的hostname分别为，hadoop-master，hadoop-slave1，hadoop-slave2

因为3条机器相关配置类似，所以我们先在一台机器上操作完，然后将机器克隆2台即可。

克隆第一台机器master

首先从虚拟机快照中创建一个克隆，我们将先在这台机器（hadoop-master）上操作。

以下均在root用户下操作

修改主机名

vim /etc/hostnamehadoop-master

修改hosts文件

vim /etc/hosts192.168.126.110	hadoop-master
192.168.126.111	hadoop-slave1
192.168.126.112	hadoop-slave2

修改ip地址

vim /etc/sysconfig/network-scripts/ifcfg-ens33

创建账号

创建hadoop账号，并设置密码为hadoop

useradd hadoop
echo hadoop|passwd --stdin hadoop;

配置hadoop账号root权限

visudo末尾添加
hadoop    ALL=(ALL)       NOPASSWD:ALL

安装hadoop

hadoop 3.1.3下载地址：Apache Hadoop

创建两个目录并赋予权限，进入software目录，并将hadoop压缩包上传上去

mkdir /opt/module
mkdir /opt/software
chown hadoop:hadoop /opt/module
chown hadoop:hadoop /opt/software
cd /opt/software

切换到hadoop用户，并解压

su hadoop
tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/

回到root用户，配置环境变量

exit
cd /etc/profile.d/vim hadoop.sh#!/bin/bash
#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin重新加载环境变量，这样新配置的hadoop环境变量才会生效
source /etc/profile

检查hadoop安装是否成

hadoop version

hadoop的4个自定义配置文件及workers配置

切换到hadoop用户，进入到hadoop安装目录

su hadoop
cd /opt/module/hadoop-3.1.3

core-site.xml

vim etc/hadoop/core-site.xml

配置内容

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?><configuration>
<property><name>fs.defaultFS</name><value>hdfs://hadoop-master:8020</value><description>指定 NameNode 的地址</description>
</property><property><name>hadoop.tmp.dir</name><value>/opt/module/hadoop-3.1.3/data</value><description>指定 Hadoop 数据的存储目录</description>
</property>
</configuration>

hdfs-site.xml

vim etc/hadoop/hdfs-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<configuration>
<property><name>dfs.namenode.http-address</name><value>hadoop-master:9870</value><description>nn web 端访问地址</description>
</property><property><name>dfs.namenode.secondary.http-address</name><value>hadoop-slave2:9868</value><description>2 nn web 端访问地址</description>
</property>
</configuration>

mapred-site.xml

vim etc/hadoop/mapred-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?><configuration><property><name>mapreduce.framework.name</name><value>yarn</value><description></description></property><property><name>mapreduce.jobhistory.address</name><value>hadoop-master:10020</value><description>历史服务器端地址</description></property><property><name>mapreduce.jobhistory.webapp.address</name><value>hadoop-master:19888</value><description>历史服务器 web 端地址</description></property>
</configuration>

yarn-site.xml

vim etc/hadoop/yarn-site.xml

<?xml version="1.0"?>
<configuration><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value><description>指定 MR 走 shuffle</description></property><property><name>yarn.resourcemanager.hostname</name><value>hadoop-slave1</value><description>指定 ResourceManager 的地址</description></property> <property><name>yarn.nodemanager.env-whitelist</name><value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value><description>系统环境变量的继承</description></property><property><name>yarn.log-aggregation-enable</name><value>true</value><description>开启日志聚集功能</description></property><property><description>设置日志聚集服务器地址</description><name>yarn.log.server.url</name><value>http://hadoop-master:19888/jobhistory/logs</value></property><property><description>设置日志保留时间为 7 天, -1 表示不保存日志</description><name>yarn.log-aggregation.retain-seconds</name><value>604800</value></property></configuration>

配置workers

vim etc/hadoop/workers

hadoop-master
hadoop-slave1
hadoop-slave2

克隆slave

关闭master，克隆slave1和slave2，并开机

分别修改主机名和ip地址

hadoop-slave1：192.168.126.111

hadoop-slave2：192.168.126.112

vim /etc/hostnamehadoop-slave1

vim /etc/sysconfig/network-scripts/ifcfg-ens33

slave2类同

配置ssh免密

登录master

配置免密登录slave1，slave2

su hadoop
cd							进入当前账号家目录
ssh-keygen					连续三次回车	ssh-copy-id hadoop-master	复制公钥到master服务器
ssh-copy-id hadoop-slave1	复制公钥到slave1服务器
ssh-copy-id hadoop-slave2	复制公钥到slave2服务器

分别登录slave1，slave2执行以上操作

初始化启动

以下在master上执行

cd /opt/module/hadoop-3.1.3
hdfs namenode -format

启动hadoop

启动HDFS服务

cd /opt/module/hadoop-3.1.3
sbin/start-dfs.sh

访问web页：http://192.168.126.110:9870

启动YARN服务

登录slave1

ssh hadoop-slave1
cd /opt/module/hadoop-3.1.3
sbin/start-yarn.sh

访问页面：http://192.168.126.111:8088/

检查各个集群节点服务

jps

集群启动与停止

在master上

cd /opt/module/hadoop-3.1.3
sbin/start-dfs.sh
sbin/stop-dfs.sh

在slave1上

cd /opt/module/hadoop-3.1.3
sbin/start-yarn.sh
sbin/stop-yarn.sh

测试

mkdir /opt/module/hadoop-3.1.3/wcinput
cd /opt/module/hadoop-3.1.3/wcinput
vim word.txt
ss ss
cls cls
banzhang
bobo
yangge

hadoop fs -mkdir /input	
hadoop fs -put $HADOOP_HOME/wcinput/word.txt /input

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output

部分内容参考连接：https://blog.csdn.net/Brave_heart4pzj/article/details/138314373

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/web/53524.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！