大数据开发环境的安装，配置（Hadoop）

1. 三台linux服务器的安装

1. 安装VMware

VMware虚拟机软件是一个“虚拟PC”软件，它使你可以在一台机器上同时运行二个或更多Windows、DOS、LINUX系统。与“多启动”系统相比，VMWare采用了完全不同的概念。
我们可以通过VMware来安装我们的linux虚拟机，然后通过linux虚拟机来进行集群的安装，VMware的安装双击之后，一路下一步即可，尽量不要装在操作系统盘里面了，VMware的安装步骤省略

2. 通过Vmware安装第一台linux机器(种子机)

我们通过Vmware可以安装第一台我们的linux机器，接下来我们来看如何通过VMWare创建linux虚拟机，并给我们的虚拟机挂载操作系统

1：双击Vmware打开之后，点击创建新的虚拟机

2：选择自定义安装配置

3：选择稍后安装操作系统

4：选择稍后安装操作系统

5：选择安装路径，==尽量不要放在系统盘(默认是C盘)，并且所在盘符的剩余空间尽量大些==

6：CPU核数，默认即可

7：虚拟机内存根据自身windows电脑进行调整

例如如果windows是8GB内存，那么每台虚拟机内存给2048M内存，如果windows是16GB没存，那么每台虚拟机可以给3072M内存即可

8：网络配置一定要选择NAT

9：磁盘大小尽量给40GB

注意：千万==不要==勾选“立即分配所有磁盘空间”

10：完成

3. 为我们创建的linux虚拟机挂载操作系统

我们现在已经有了一台虚拟电脑了，就类似我们刚刚买了一台电脑回来，只不过不同的是我们这台虚拟电脑还没有操作系统我们需要为这台电脑挂在操作系统出来

1：通过设置来挂载操作系统

2：直接回车开始安装

用键盘的方向键，选中“Install CentOS 7”,然后按回车，开始安装

再按回车键

3：设置键盘为英文键盘

4：接下来配置这三项

（1）设置①时区为Asia/Shanghai

（2）设置②INSTALATION DESTINATION

（3）设置③NETWORK & HOST NAME

5：设置root用户密码

6：安装完成之后重启reboot即可

此过程稍长，耐心等待

4. 为我们的linux虚拟机设置网络配置

我们的linux虚拟机已经创建并挂载好了操作系统，接下来我们可以为我们的第一台虚拟机来设置网络地址了，设置网络地址比较麻烦，尽量一步步的操作

1：设置虚拟机的网段

2：查看==NAT模式==的网关，子网IP以及子网掩码

3：设置window当中的VMNet8网络地址

4：设置linux当中的网络

编辑配置文件

vi /etc/sysconfig/network-scripts/ifcfg-ens33

添加联网四要素

IPADDR=192.168.51.100
NETMASK=255.255.255.0
GATEWAY=192.168.51.1
DNS1=8.8.8.8

具体参考下图

更改完成配置，重启网络服务

systemctl restart network

安装一些常用的软件

yum -y install vim
yum -y install net-tools

关机

init 0

5. 克隆第一台机器--->种子机要处于关机状态

现在我们已经有了种子机器了，我们可以通过种子机器进行复制或者克隆出三台机器
关闭linux种子机器，然后准备进行克隆

选择创建完整克隆

6. 更改克隆机器的IP地址(跟咱们的网关，子网IP，ip地址，种子机IP，前三位保持一致，最后一位，各不相同)

三台机器的ip地址分别是192.168.51.100、192.168.51.110、192.168.51.120
克隆出来的机器IP地址与种子的ip地址一样，我们将第二台机器的IP地址更改为192.168.51.110即可
启动虚拟机，并通过root用户，密码123456来进行登录，然后来更改linux机器的IP地址

vi /etc/sysconfig/network-scripts/ifcfg-ens33

IPADDR=192.168.51.110
NETMASK=255.255.255.0
GATEWAY=192.168.51.1
DNS1=8.8.8.8

依照上面步骤，接着克隆第三台机器，并将第三台机器的IP地址设置为

192.168.51.120

建议：三台机器准备好后，打个快照，便于出错后恢复

systemctl restart network

2. 安装大数据集群前的环境准备

1. 三台虚拟机关闭防火墙

三台机器执行以下命令（root用户来执行）

systemctl stop firewalld   
systemctl disable firewalld
systemctl status firewalld

2. 三台机器关闭selinux

三台机器执行以下命令关闭selinux

vi /etc/sysconfig/selinux

SELINUX=disabled

3. 三台机器更改主机名

三台机器执行以下命令更改主机名

vi /etc/hostname

第一台机器更改内容

node01.itheima.com

第二台机器更改内容

node02.itheima.com

第三台机器更改内容

node03.itheima.com

4. 三台机器做主机名与IP地址的映射

三台机器执行以下命令更改主机名与IP地址的映射

vi /etc/hosts

192.168.51.100 node01.itheima.com node01
192.168.51.110 node02.itheima.com node02
192.168.51.120 node03.itheima.com node03

==注意：根据自己的实际情况，修改ip地址==

5. 三台机器时钟同步

第一种同步方式：通过网络进行时钟同步

通过网络连接外网进行时钟同步,必须保证虚拟机连上外网

三台机器都安装ntpdate

yum -y install ntpdate

阿里云时钟同步服务器

ntpdate ntp4.aliyun.com

三台机器定时任务

crontab -e

添加如下内容

*/1 * * * * /usr/sbin/ntpdate ntp4.aliyun.com;

第二种同步方式：内网某机器作为时钟同步服务器(推荐)

以下操作都在root用户下面执行，通过su root切换到root用户

以192.168.51.100这台服务器的时间为准进行时钟同步

第一步:三台机器确定是否安装了ntpd的服务

三台机器确认是否安装ntpdate时钟同步工具

rpm -qa | grep ntpdate

如果没有安装,三台机器执行以下命令可以进行在线安装

yum -y install ntpdate

node01安装ntp

yum -y install ntp

三台机器，执行以下命令，设置时区为中国上海时区

timedatectl set-timezone Asia/Shanghai

第二步：node01启动ntpd服务

我们需要启动node01的ntpd服务，作为服务端，对外提供同步时间的服务

启动ntpd的服务

#启动ntpd服务
systemctl start ntpd#设置ntpd服务开机启动
systemctl enable ntpd

第三步：修改node01服务器配置

修改node01这台服务器的时钟同步配置，允许对外提供服务

vim /etc/ntp.conf

添加以下两行内容

# 同意192.168.51.0网段（修改成自己的网段）的所有机器与node01同步时间
restrict 192.168.237.0 mask 255.255.255.0 nomodify notrap
server 127.127.1.0

注释掉以下这四行内容

#server 0.centos.pool.ntp.org iburst
#server 1.centos.pool.ntp.org iburst
#server 2.centos.pool.ntp.org iburst
#server 3.centos.pool.ntp.org iburst

修改完成之后，重启node01的ntpd服务

systemctl restart ntpd

至此，ntpd的服务端已经安装配置完成，接下来配置客户端与服务端进行同步

第四步：配置node02与node03同步node01的时间

客户端node02与node03设置时区与node01保持一致Asia/Shanghai

node02与node03修改配置文件，保证每次时间写入硬件时钟

vim /etc/sysconfig/ntpdate

SYNC_HWCLOCK=yes

node02与node03修改定时任务，定时与node01同步时间

[root@node03 hadoop]# crontab -e

增加如下内容

*/1 * * * * /usr/sbin/ntpdate node01

6. 三台机器添加普通用户

三台linux服务器统一添加普通用户hadoop，并给以sudo权限，用于以后所有的大数据软件的安装

并统一设置普通用户的密码为 ==123456==

useradd hadoop
passwd hadoop

普通用户的密码设置为123456

三台机器为普通用户添加sudo权限

visudo

增加如下内容

## Allow root to run any commands anywherehadoop    ALL=(ALL)       ALL

7. 三台定义统一目录

定义三台linux服务器软件压缩包存放目录，以及解压后安装目录，三台机器执行以下命令，创建两个文件夹，一个用于存放软件压缩包目录，一个用于存放解压后目录

mkdir -p /itheima/soft   # 软件压缩包存放目录
mkdir -p /itheima/install # 软件解压后存放目录
chown -R hadoop:hadoop /itheima  # 将文件夹权限更改为hadoop用户

权限高的用户完全可以操作权限低的用户所拥有的的目录或者文件

创建hadoop用户之后，我们三台机器都通过hadoop用户来进行操作，以后再也不需要使用root用户来操作了

三台机器通过 su hadoop命令来切换到hadoop用户

su hadoop

8. 三台机器hadoop用户免密码登录

重启下3个linux虚拟机，让主机名生效

重启命令：reboot -h now

第一步：三台机器在相同用户下执行以下命令生成公钥与私钥

ssh-keygen -t rsa

执行上述命令之后，按三次Enter键即可生成了

第二步：三台机器在相同用户下，执行命令拷贝公钥到node01,node02,node03服务器

ssh-copy-id node01
ssh-copy-id node02
ssh-copy-id node03

第三步：验证；从任意节点是否能免秘钥登陆其他节点；如node01免密登陆node02

ssh node02

注意：如果免密登录失败，三台机器：(1)root用户下，cd /root/.ssh (2)hadoop用户下，进入到 cd /home/hadoop/.ssh/，删除.ssh目录下的所有文件,重新生成公钥私钥，重新分发公钥

9. 三台机器关机重启

三台机器在hadoop用户下执行以下命令，实现关机重启

sudo reboot -h now
su root

10. 三台机器安装jdk

使用hadoop用户来重新连接三台机器，然后使用hadoop用户来安装jdk软件
上传压缩包到第一台服务器的/itheima/soft下面，然后进行解压，配置环境变量即可，三台机器都依次安装即可
上传下载rz sz安装：yum -y install lrzsz 压缩包大于40G的话，可能没法用rz上传。

cd /itheima/soft/
tar -zxvf jdk-8u141-linux-x64.tar.gz -C /itheima/install/
sudo vim /etc/profile

#添加以下配置内容，配置jdk环境变量
export JAVA_HOME=/itheima/install/jdk1.8.0_141
export PATH=$PATH:$JAVA_HOME/bin

让修改马上生效

source /etc/profile