大数据环境搭建(一)-Hadoop

1. 服务器环境准备

  • Linux镜像: centos7.9
  • JDK: jdk1.8.0_212
  • Hadoop: apache-hadoop-3.3.4
创建虚拟Linux服务器
  • 配置虚拟机,每台主机名与ip如下
主机名ip
bd-centos01192.168.159.101
bd-centos02192.168.159.102
bd-centos03192.168.159.103
  • 修改网络配置文件(以bd-centos01为例)
# vi /etc/sysconfig/network-scripts/ifcfg-ens33
修改内容如下 
TYPE=Ethernet
BOOTPROTO=static
DEFROUTE=yes
PEERDNS=yes
PEERROUTES=yes
IPADDR=192.168.159.101
PREFIX=24
GATEWAY=192.168.159.2
DNS1=192.168.159.2
NAME=ens33
DEVICE=ens33
ONBOOT=yes
  • 修改主机名(以bd-centos01为例)
# vi /etc/hostname 
bd-centos01
  • 修改映射文件
# vi /etc/hosts
添加如下内容
192.168.159.101 bd-centos01
192.168.159.102 bd-centos02
192.168.159.103 bd-centos03
  • 重启每台服务器
创建hadoop用户 (所有节点)
# useradd hadoop
# passwd hadoop
配置ssh免密登录
  • 切为hadoop用户,配置ssh免密登录 (所有节点)
3次回车
$ ssh-keygen -t rsa
拷贝公钥,到所有节点的授权列表
$ ssh-copy-id bd-centos01
$ ssh-copy-id bd-centos02
$ ssh-copy-id bd-centos03
文件镜像同步工具

基于sync,写一个简单同步工具,将一台服务器的文件同步到其他节点上。

hadoop用户 在~/bin/下,创建xsync文件,会自动加到用户环境变量中。添加下面脚本:

#!/bin/bash
#定义集群节点
nodes=(bd-centos01 bd-centos02 bd-centos03)
#需要同步的目录
paths=$@
if [ $# -lt 1 ]
thenecho input the paths to be synchronizedexit;
fi
#遍历节点
for host in ${nodes[@]}
doecho ================ $host ===================# 遍历录入的路径for path in $pathsdoif [ -e $path ]thenpdir=$(cd -P $(dirname $path); pwd)fname=$(basename $path)# 创建父级目录,同步路径ssh $host "mkdir -p $pdir"rsync -av $pdir/$fname $host:$pdirelseecho $path does not exists!fidone
done
安装配置JDK
  • 创建/opt/modules 用于安装大数据的文件 (所有节点)
创建目录
# mkdir /opt/modules
更改用户组为hadoop所有
# chown hadoop:hadoop /opt/modules
  • 解压jdk
[hadoop@bd-centos01 ~]$ tar -zxf software/jdk-8u212-linux-x64.tar.gz -C /opt/modules/
  • 同步文件
[hadoop@bd-centos01 ~]$ xsync /opt/modules/jdk1.8.0_212/
  • 配置环境变量(所有节点)
[root@bd-centos01 ~]# vi /etc/profile.d/path.sh
添加如下内容
export JAVA_HOME=/opt/modules/jdk1.8.0_212
export PATH=$PATH:$JAVA_HOME/bin
使配置生效
[hadoop@bd-centos01 ~]$ source /etc/profile.d/path.sh
  • 验证
java
javac
java -version
集群 时间同步

略。虚拟机模拟集群,不额外配置时间同步等

关闭防火墙
# systemctl stop firewalld
# systemctl disable firewalld.service

2 Hadoop 安装

节点部署
bd-centos01bd-centos02bd-centos03
HDFSNameNode
DataNode
JobHistoryServer

DataNode
SecondaryNameNode
DataNode
YarnNodeManagerResourceManager
NodeManager
NodeManager
在bd-centos01解压hadoop
[hadoop@bd-centos01 ~]$ tar -zxf software/hadoop-3.3.4.tar.gz -C /opt/modules/
修改配置文件

文件位于hadoop家目录的etc/hadoop/

  • 配置 core-site.xml
添加如下内容
<property><name>fs.defaultFS</name><value>hdfs://bd-centos01:8020</value>
</property><property><name>hadoop.tmp.dir</name><value>/opt/modules/hadoop-3.3.4/data</value>
</property><property><name>hadoop.http.staticuser.user</name><value>hadoop</value>
</property>
  • 配置 hfds-site.xml
<property><name>dfs.namenode.http-address</name><value>bd-centos01:9870</value>
</property>
<property><name>dfs.namenode.secondary.http-address</name><value>bd-centos03:9868</value>
</property>
  • 配置 yarn-site.xml
 <property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.resourcemanager.hostname</name><value>bd-centos02</value></property><property><name>yarn.nodemanager.env-whitelist</name><value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value></property><property><name>yarn.log-aggregation-enable</name><value>true</value></property><property>  <name>yarn.log.server.url</name>  <value>http://bd-centos01:19888/jobhistory/logs</value></property><property><name>yarn.log-aggregation.retain-seconds</name><value>604800</value></property>
  • 配置 mapred-site.xml
<property><name>mapreduce.framework.name</name><value>yarn</value>
</property>
<property><name>mapreduce.jobhistory.address</name><value>bd-centos01:10020</value>
</property>
<property><name>mapreduce.jobhistory.webapp.address</name><value>bd-centos01:19888</value>
</property>
  • 配置 workers文件
添加所有节点
bd-centos01
bd-centos02
bd-centos03
  • 同步配置文件
xsync /opt/modules/hadoop-3.3.4/etc/hadoop
格式化namenode
[hadoop@bd-centos01 hadoop-3.3.4]$ bin/hdfs namenode -format
启动集群
节点1
[hadoop@bd-centos01 hadoop-3.3.4]$ sbin/start-dfs.sh
节点2
[hadoop@bd-centos02 hadoop-3.3.4]$ sbin/start-yarn.sh
节点1
[hadoop@bd-centos01 hadoop-3.3.4]$ bin/mapred --daemon start historyserver
  • 在各个节点查看进程
各个节点的进程因该与规划一致
$ jps
运行简单的任务
[hadoop@bd-centos01 hadoop-3.3.4]$ bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar pi 100 1000
web访问
查看HDFS集群信息
http://bd-centos01:9870/
查看yarn的集群信息及运行任务
http://bd-centos02:8088/
查看jobHistoryhttp://bd-centos01:19888/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/664493.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

webassembly003 ggml.js试用(暂记)

git clone https://github.com/rahuldshetty/ggml.js-examples.gitpython -m http.sever启动服务器 虽然推理运行了一会&#xff0c;但是风扇没有任何响声。 Using Examples 感觉这个有点笨拙 Instruction: {dow you know about Uncaught invalid worker function to call: …

【数据结构】双向链表 超详细 (含:何时用一级指针或二级指针;指针域的指针是否要释放)

目录 一、简介 二. 双链表的实现 1.准备工作及其注意事项 1.1 先创建三个文件 1.2 注意事项&#xff1a;帮助高效记忆 1.3 关于什么时候 用 一级指针接收&#xff0c;什么时候用 二级指针接收&#xff1f; 1.4 释放节点时&#xff0c;要将节点地址 置为NULL&#xff0…

某赛通电子文档安全管理系统 UploadFileToCatalog SQL注入漏洞复现

0x01 产品简介 某赛通电子文档安全管理系统(简称:CDG)是一款电子文档安全加密软件,该系统利用驱动层透明加密技术,通过对电子文档的加密保护,防止内部员工泄密和外部人员非法窃取企业核心重要数据资产,对电子文档进行全生命周期防护,系统具有透明加密、主动加密、智能…

WordPress主题YIA的文章页评论内容为什么没有显示出来?

有些WordPress站长使用YIA主题后&#xff0c;在YIA主题设置的“基本”中没有开启“一键关闭评论功能”&#xff0c;而且文章也是允许评论的&#xff0c;但是评论框却不显示&#xff0c;最关键的是文章原本就有的评论内容也不显示&#xff0c;这是为什么呢&#xff1f; 根据YIA主…

2024 高级前端面试题之 性能优化模块 「精选篇」

该内容主要整理关于 性能优化模块 的相关面试题&#xff0c;其他内容面试题请移步至 「最新最全的前端面试题集锦」 查看。 性能优化模块精选篇 1. 性能优化方式1.1 DNS 预解析1.2 缓存1.3 使用 HTTP / 2.01.4 预加载1.5 预渲染1.6 懒执行与懒加载1.7 文件优化1.8 其他 2. 首屏…

深入了解 SOCKS5 代理、代理 IP 和 HTTP

1. 介绍 引言&#xff1a;介绍代理服务在互联网世界中的重要性和普遍性。说明本文将探讨 SOCKS5 代理、代理 IP 和 HTTP 代理的概念和作用。 2. SOCKS5 代理 解释 SOCKS5 代理的概念和工作原理。介绍 SOCKS5 协议的特点和功能。讨论 SOCKS5 代理的优点和适用场景。提及 SOCK…

决策树的相关知识点

&#x1f4d5;参考&#xff1a;ysu老师课件西瓜书 1.决策树的基本概念 【决策树】&#xff1a;决策树是一种描述对样本数据进行分类的树形结构模型&#xff0c;由节点和有向边组成。其中每个内部节点表示一个属性上的判断&#xff0c;每个分支代表一个判断结果的输出&#xff…

和鲸科技与智谱AI达成合作,共建大模型生态基座

近日&#xff0c;上海和今信息科技有限公司&#xff08;简称“和鲸科技”&#xff09;与北京智谱华章科技有限公司&#xff08;简称“智谱AI”&#xff09;签订合作协议&#xff0c;双方将携手推动国产通用大模型的广泛应用与行业渗透&#xff0c;并积极赋能行业伙伴探索领域大…

回归预测 | Matlab实现CPO-BiLSTM【24年新算法】冠豪猪优化双向长短期记忆神经网络多变量回归预测

回归预测 | Matlab实现CPO-BiLSTM【24年新算法】冠豪猪优化双向长短期记忆神经网络多变量回归预测 目录 回归预测 | Matlab实现CPO-BiLSTM【24年新算法】冠豪猪优化双向长短期记忆神经网络多变量回归预测效果一览基本介绍程序设计参考资料 效果一览 基本介绍 1.Matlab实现CPO-B…

electron项目在内网环境的linux环境下进行打包

Linux需要的文件: electron-v13.0.0-linux-x64.zip appimage-12.0.1.7z snap-template-electron-4.0-1-amd64.tar.7z 下载慢或者下载失败的情况可以手动下载以上electron文件复制到指定文件夹下&#xff1a; 1.electron-v13.0.0-linux-x64.zip 复制到~/.cache/electron/目录下…

How to switch CRAN of R language to Tsinghua mirror in ubuntu

How to switch CRAN of R language to Tsinghua mirror in ubuntu 创建文件 touch ~/.Rprofile 添加内容 tee ~/.Rprofile <<-EOF options("repos" c(CRAN"https://mirrors.tuna.tsinghua.edu.cn/CRAN/")) EOF退出后&#xff0c;重新登录。 参考文…

什么是ACL?

知识改变命运&#xff0c;技术就是要分享&#xff0c;有问题随时联系&#xff0c;免费答疑&#xff0c;欢迎联系&#xff01; 厦门微思网络​​​​​​https://www.xmws.cn 华为认证\华为HCIA-Datacom\华为HCIP-Datacom\华为HCIE-Datacom Linux\RHCE\RHCE 9.0\RHCA\ Oracle OC…

IP 协议的相关特性

1. IP协议定义和特性 IP&#xff08;Internet Protocol&#xff09;协议是互联网中使用的网络协议之一&#xff0c;它的特性包括&#xff1a; 1. 无连接性&#xff1a;IP协议是一种无连接协议&#xff0c;每个数据包都是独立发送和处理的。因此&#xff0c;每个数据包都需要包含…

米哈游(原神)终面算法原题

恒大正式破产 准确来说&#xff0c;是中国恒大&#xff08;恒大汽车、恒大物业已于 2024-01-30 复牌&#xff09;。 恒大破产&#xff0c;注定成为历史的注目焦点。 作为首个宣布破产的房地产企业&#xff0c;恒大的破产规模也创历史新高。 房地产作为曾推动中国三分之一经济增…

AI在线写作软件推荐:5款不可错过的写作工具

现在人工智能&#xff08;AI&#xff09;技术已经渗透到了各个领域&#xff0c;包括写作。AI在线写作软件的出现&#xff0c;为我们提供了更加高效、准确的写作工具。在本文中&#xff0c;我将向大家推荐5款功能强大的AI在线写作软件&#xff0c;这些软件可以帮助我们提高写作效…

python nacos-sdk-python 连接 nacos2.x版本,鉴权403解决办法

看nacos-sdk-python 的git项目提交记录&#xff0c;应该是已经解决了nacos2.x权限问题&#xff0c;但为什么还连接不上呢&#xff1f;因为最新代码&#xff0c;居然把以前鉴权代码删除了&#xff0c;具体原因不得而知。 解决办法&#xff1a; 1.把nacos-sdk-python里面params.…

redis 6.x集群搭建

redis6集群搭建 安装文件下载 redis-6.2.6.tar.gz 编译 tar -zxvf redis-6.2.6.tar.gz cd redis-6.2.6/ make MALLOClibc make install PREFIX/opt/soft/redis复制可执行文件 cp /opt/soft/redis/redis-cli /usr/bin/redis-cli cp /opt/soft/redis/redis-server /usr/bi…

小鱼深度产品测评之:阿里云自研PolarDBMySQL 版 Serverless,真正达到100%兼容 MySQL,分析性能达到开源数据400倍。

阿里云自研PolarDBMySQL 版 Serverless测评 一、 开箱二、 试用教程三、 使用感受3.1 查看资源包信息3.2 列表3.2.1 列表展示3.2.2 集群名称 3.3创建账号3.4 实例配置3.5 Serverless弹性压测3.5.1 遇到问题3.5.2 实操 四、 总结 一、 开箱 又到了体验新产品的时候了。 话不多说…

基于Python的招聘网站爬虫及可视化的设计与实现

摘要&#xff1a;现在&#xff0c;随着互联网网络的飞速发展&#xff0c;人们获取信息的最重要来源也由报纸、电视转变为了互联网。互联网的广泛应用使网络的数据量呈指数增长&#xff0c;让人们得到了更新、更完整的海量信息的同时&#xff0c;也使得人们在提取自己最想要的信…

tcpdump在手机上的使用

首先手机得root才可以&#xff0c;主要分析手机与手机的通信协议 我使用的是一加9pro&#xff0c; root方法参考一加全能盒子、一加全能工具箱官方网站——大侠阿木 (daxiaamu.com)https://optool.daxiaamu.com/index.php tcpdump&#xff0c;要安装在/data/local/tmp下要arm6…