Hadoop集群安装部署_分布式集群安装_01

文章目录

            • 1. 分布式集群规划
            • 2. 数据清理
            • 3. 基础环境准备
            • 4. 配置ip映射
            • 5. 时间同步
            • 6. SSH免密码登录完善
            • 7. 免密登录验证

1. 分布式集群规划

伪分布集群搞定了以后我们来看一下真正的分布式集群是什么样的

看一下这张图,图里面表示是三个节点,左边这一个是主节点,右边的两个是从节点,hadoop集群是支持主从架构的。

不同节点上面启动的进程默认是不一样的。
在这里插入图片描述
下面我们就根据图中的规划实现一个一主两从的hadoop集群

环境准备:三个节点

主机名ip
bigdata01192.168.92.100
bigdata02192.168.92.101
bigdata03192.168.92.102

注意:每个节点的基础环境都要先配置好,先把ip、hostname、firewalld、ssh免密码登录、JDK这些基础环境配置好

目前的节点数量是不够的,按照第一周学习的内容,通过克隆的方式创建多个节点,具体克隆的步骤在这就不再赘述了。

2. 数据清理

声明:如果是新机器可以不清理,bigdata01这台机器刚才演示过伪分布式,因此,需要做数据清理。

先把bigdata01中之前按照的hadoop删掉,删除解压的目录,修改环境变量即可。

注意:我们需要把bigdata01节点中/data目录下的hadoop_repo目录和/data/soft下的hadoop-3.2.0目录删掉,恢复此节点的环境,这里面记录的有之前伪分布集群的一些信息。

[root@bigdata01 ~]# rm -rf  /data/soft/hadoop-3.2.0
[root@bigdata01 ~]# rm -rf  /data/hadoop_repo

假设我们现在已经具备三台linux机器了,里面都是全新的环境。

3. 基础环境准备

下面开始操作。

注意:针对这三台机器的ip、hostname、firewalld、JDK这些基础环境的配置步骤在这里就不再记录了,具体步骤参考伪分布式中的步骤。

这些基础环境配置好以后还没完,还有一些配置需要完善。

4. 配置ip映射

配置/etc/hosts
因为需要在主节点远程连接两个从节点,所以需要让主节点能够识别从节点的主机名,使用主机名远程访问,默认情况下只能使用ip远程访问,想要使用主机名远程访问的话需要在节点的/etc/hosts文件中配置对应机器的ip和主机名信息。

所以在这里我们就需要在bigdata01的/etc/hosts文件中配置下面信息,最好把当前节点信息也配置到里面,这样这个文件中的内容就通用了,可以直接拷贝到另外两个从节点

[root@bigdata01 ~]# vi /etc/hosts
192.168.92.100 bigdata01
192.168.92.101 bigdata02
192.168.92.102 bigdata03

修改bigdata02的/etc/hosts文件

[root@bigdata02 ~]# vi /etc/hosts
192.168.92.100 bigdata01
192.168.92.101 bigdata02
192.168.92.102 bigdata03

修改bigdata03的/etc/hosts文件

[root@bigdata03 ~]# vi /etc/hosts
192.168.92.100 bigdata01
192.168.92.101 bigdata02
192.168.92.102 bigdata03
5. 时间同步

集群节点之间时间同步
集群只要涉及到多个节点的就需要对这些节点做时间同步,如果节点之间时间不同步相差太多,会应该集群的稳定性,甚至导致集群出问题。

首先在bigdata01节点上操作

使用ntpdate -u ntp.sjtu.edu.cn实现时间同步,但是执行的时候提示找不到ntpdata命令

[root@bigdata01 ~]# ntpdate -u ntp.sjtu.edu.cn
-bash: ntpdate: command not found

默认是没有ntpdate命令的,需要使用yum在线安装,执行命令

 yum install -y ntpdate

然后手动执行ntpdate -u ntp.sjtu.edu.cn 确认是否可以正常执行

[root@bigdata01 ~]# ntpdate -u ntp.sjtu.edu.cn

建议把这个同步时间的操作添加到linux的crontab定时器中,每分钟执行一次

[root@bigdata01 ~]# vi /etc/crontab
* * * * * root /usr/sbin/ntpdate -u ntp.sjtu.edu.cn

然后在bigdata02和bigdata03节点上配置时间同步

在bigdata02节点上操作

[root@bigdata02 ~]# yum install -y ntpdate
[root@bigdata02 ~]# vi /etc/crontab
* * * * * root /usr/sbin/ntpdate -u ntp.sjtu.edu.cn

在bigdata03节点上操作

[root@bigdata03 ~]# yum install -y ntpdate
[root@bigdata03 ~]# vi /etc/crontab
* * * * * root /usr/sbin/ntpdate -u ntp.sjtu.edu.cn
6. SSH免密码登录完善

注意:针对免密码登录,目前只实现了自己免密码登录自己,最终需要实现主机点可以免密码登录到所有节点,所以还需要完善免密码登录操作。

首先在bigdata01机器上执行下面命令,将公钥信息拷贝到两个从节点

[root@bigdata01 ~]# scp ~/.ssh/authorized_keys bigdata02:~/
The authenticity of host 'bigdata02 (192.168.92.101)' can't be established.
ECDSA key fingerprint is SHA256:OkPdWB6Qbl6dbKtaCWEsnueYoZ1E6jTMswu1gB5e8Wg.
ECDSA key fingerprint is MD5:fa:46:3c:5c:86:b3:6e:36:86:2c:94:8c:5d:a8:83:fc.
Are you sure you want to continue connecting (yes/no)? yes
Warning: Permanently added 'bigdata02,192.168.92.101' (ECDSA) to the list of known hosts.
root@bigdata02's password: 
authorized_keys                                              100%  396   197.0KB/s   00:00    
You have mail in /var/spool/mail/root
[root@bigdata01 ~]# scp ~/.ssh/authorized_keys bigdata03:~/
The authenticity of host 'bigdata03 (192.168.92.102)' can't be established.
ECDSA key fingerprint is SHA256:OkPdWB6Qbl6dbKtaCWEsnueYoZ1E6jTMswu1gB5e8Wg.
ECDSA key fingerprint is MD5:fa:46:3c:5c:86:b3:6e:36:86:2c:94:8c:5d:a8:83:fc.
Are you sure you want to continue connecting (yes/no)? yes
Warning: Permanently added 'bigdata03,192.168.92.102' (ECDSA) to the list of known hosts.
root@bigdata03's password: 
authorized_keys                                              100%  396   305.2KB/s   00:00    
[root@bigdata01 ~]#

然后在bigdata02和bigdata03上执行
bigdata02:

[root@bigdata02 ~]# cat ~/authorized_keys  >> ~/.ssh/authorized_keys

bigdata03:

[root@bigdata03 ~]# cat ~/authorized_keys  >> ~/.ssh/authorized_keys
7. 免密登录验证

验证一下效果,在bigdata01节点上使用ssh远程连接两个从节点,如果不需要输入密码就表示是成功的,此时主机点可以免密码登录到所有节点。

[root@bigdata01 ~]# ssh bigdata02
Last login: Sat Jul  3 18:53:32 2021 from 192.168.92.1
[root@bigdata02 ~]# exit
logout
Connection to bigdata02 closed.
[root@bigdata01 ~]# ssh bigdata03
Last login: Sat Jul  3 18:53:34 2021 from 192.168.92.1
[root@bigdata03 ~]# exit
logout
Connection to bigdata03 closed.
[root@bigdata01 ~]#

有没有必要实现从节点之间互相免密码登录呢?

这个就没有必要了,因为在启动集群的时候只有主节点需要远程连接其它节点。

OK,那到这为止,集群中三个节点的基础环境就都配置完毕了,接下来就需要在这三个节点中安装Hadoop了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/517856.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

今天,Python信息量很大!

小白程序员Python自学之痛:第一周找学习资源,第二周入门到放弃,第三周怀疑自己。明明10元钱就能搞定的事情,为什么要反反复复折磨自己呢?为了让用户用更优惠的价格买到优质的课程,CSDN和老师反复争取&#…

Arrays类解析

Arrays类解析 数组的工具类java.util.Arrays 由于数组对象本身并没有什么方法可以供我们调用,但API中提供一个工具类Arrays供我们使用,从而可以对数据对象进行一些基本的操作。 查看JDK帮助文档 Arrays类中的方法都是static修饰的静态方法&#xff0c…

闲鱼如何利用端计算提升推荐场景的ctr

背景 闲鱼作为一个电商场景的app,最丰富的部分就是作为商品宝贝浏览承载的feeds,比如首页下面的宝贝信息流,搜索结果页以及详情页下面的猜你喜欢,这些feeds场景都少不了推荐算法在背后的支撑。 传统的推荐算法是依托于云上沉淀的…

Hadoop集群安装部署_分布式集群安装_02

文章目录一、上传与 解压1. 上传安装包2. 解压hadoop安装包二、修改hadoop相关配置文件2.1. hadoop-env.sh2.2. core-site.xml2.3. hdfs-site.xml2.4. mapred-site.xml2.5. yarn-site.xml2.6. workers2.7. 修改启动脚本三、同步初始化3.1. 安装包同步3.2. 主节点格式化HDFS3.3.…

基于融合计算?蚂蚁金服的在线机器学习是如何做的

金融领域越来越多的活动场景,如双十一、双十二、财富日、新春大促,具有活动持续时间短强度高的特点,解决场景中的计算冷启动问题,优化系统效率和用户体验的需求越来越多。在生产环境的应用中,还需要满足高吞吐和端到端…

重要的节日那么多,要及时「缓存」你们的珍贵时光

作者 | 后端学长责编 | Carol出品 | 程序员 cxuan缓存概述在很久很久以前人类和洪水作斗争的过程中,水库发挥了至关重要的作用 : 在发洪水时可以蓄水,缓解洪水对下游的冲击;在干旱时可以把库存的水释放出来以供人们使用。这里的水库就起着缓存…

冒泡排序(重要)

冒泡排序(重要) 冒泡排序无疑是最为出名的排序算法之一,一共有八大排序!冒泡代码还是相当简单的,两层循环,外层冒泡轮数,里层依次比较,江湖中人尽皆知。我们看到嵌套循环&#xff0…

K8S中手动扩容云盘数据卷

介绍: 云盘数据卷扩容包括以下几个部分: 云盘物理空间扩容,需要在云盘控制台操作; 文件系统扩容,需要挂载云盘到一个物理节点手动操作; PV、PVC Size更新,需要更新StorageClass、PVC&#xff1…

我和面试官之间关于操作系统的一场对弈 | 原力计划

作者 | Guide哥责编 | 伍杏玲出品 | CSDN博客大家好,我是 Guide 哥!很多读者抱怨计算操作系统的知识点比较繁杂,自己也没有多少耐心去看,但是面试的时候又经常会遇到。所以,我带着我整理好的操作系统的常见问题来啦&am…

LaTex中参考文献引用

一、引用参考文献 这里我们使用的是BibTeX的引用格式,因此文件中应包括两个文件(.bib-参考文献 和 .bst-文献格式)。 有了这两个文件后,我们在bib文件中创建参考文献:(注意,作者的名字是逗号前…

如何在Flutter上实现高性能的动态模板渲染

背景 最近小组在尝试使用一套阿里dinamicX的DSL,通过动态模板下发,实现Flutter端的动态化模板渲染;本来以为只是DSL到Widget的简单映射和数据绑定,但实际跑起来的效果出乎意料的差,列表卡顿严重,帧率丢失严…

稀疏数组(数据结构)

稀疏数组(数据结构) 需求:编写五子棋游戏中,有存盘和续上盘的功能 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 …

揭秘 Flink 1.9 新架构,Blink Planner 你会用了吗?

本文为 Apache Flink 新版本重大功能特性解读之 Flink SQL 系列文章的开篇,Flink SQL 系列文章由其核心贡献者们分享,涵盖基础知识、实践、调优、内部实现等各个方面,带你由浅入深地全面了解 Flink SQL。 1. 发展历程 今年的8月22日 Apache…

centos7 修改yum源为阿里源

# 1.先检查是否有wget命令,如果没有wget,先下载: yum install -y wget# 2.安装base reop源cd /etc/yum.repos.d# 3.接着备份旧的配置文件 mv CentOS-Base.repo CentOS-Base.repo.bak# 4.下载阿里源的文件 wget -O /etc/yum.repos.d/epel.re…

阿里面试官整理的JVM面试要点,99%的你都不知道!

最近网上出现一个面试题:“一个线程OOM后,其他线程还能运行吗?”网上出现了很多答案。这道题其实很有难度,涉及的知识点有jvm内存分配、作用域、gc等,不是简单的是与否的问题。在面试时被问到这个问题你是会哑口无言还…

开发函数计算的正确姿势——借助 Ghostscript 将 PDF 转换成 JPG

前言 首先介绍下在本文出现的几个比较重要的概念: 函数计算(Function Compute):函数计算是一个事件驱动的服务,通过函数计算,用户无需管理服务器等运行情况,只需编写代码并上传。函数计算准备计…

面向对象编程(OOP)

面向对象编程(OOP) 面向过程&面向对象 面向过程思想(线性) ​ 1.步骤清晰简单,第一步做什么,第二步做什么…… ​ 2.面对过程适合处理一些较为简单的问题 面向对象思想(分类&#xff0…

6 个 K8s 日志系统建设中的典型问题,你遇到过几个?

作者 | 元乙 阿里云日志服务数据采集客户端负责人,目前采集客户端 logtail 在集团百万规模部署,每天采集上万应用数 PB 数据,经历多次双 11、双 12 考验。 导读:随着 K8s 不断更新迭代,使用 K8s 日志系统建设的开发者…

腾讯视频云支持超300万场次直播带货 助力企业一天搭建直播间

5月21日,腾讯产业互联网沙龙通过腾讯会议线上举办,围绕“科技助力中小微企业破局”话题,腾讯视频云业务总经理李郁韬 、腾讯云生态建设总经理王莹、腾讯云云开发产品负责人王倩与数百家企业代表探讨了在疫情之下,中小微企业如何借…