在 Linux 系统上安装 Hadoop 需要以下几个步骤,包括系统准备、下载 Hadoop、解压安装、配置环境变量、启动集群等。以下是一个通用的安装指南,适用于大多数 Linux 发行版(如 Ubuntu、CentOS、Debian 等)。
一、系统准备
1. 系统要求
Linux 发行版:Ubuntu 18.04 LTS 或更高版本、CentOS 7/8、Debian 10+ Java 环境:JDK 8 或更高版本 磁盘空间:至少 30GB(Hadoop 需要较大的存储空间) 网络:确保所有节点之间可以通信(IP 范围、防火墙配置)二、安装 Java
sudo apt update
sudo apt install openjdk-8-jdk -y
验证 Java 是否安装成功:
java -version
javac -version三、下载 Hadoop
1. 从官方网站下载 Hadoop
wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
2. 解压 Hadoop
tar -xzvf hadoop-3.3.6.tar.gz -C /opt/
设置环境变量(可选,但推荐):
export HADOOP_HOME=/opt/hadoop-3.3.6
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH四、配置 Hadoop
1. 配置 hadoop-env.sh
sudo nano /opt/hadoop-3.3.6/etc/hadoop/hadoop-env.sh
在 export JAVA_HOME= 后添加:
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
2. 配置 core-site.xml
sudo nano /opt/hadoop-3.3.6/etc/hadoop/core-site.xml
添加以下内容(注意替换为你的实际 IP 地址):
<configuration><property><name>fs.defaultFS</name><value>hdfs://namenode</value></property><property><name>hadoop.home.dir</name><value>/opt/hadoop-3.3.6</value></property>
</configuration>
3. 配置 hdfs-site.xml
sudo nano /opt/hadoop-3.3.6/etc/hadoop/hdfs-site.xml
添加以下内容:
<configuration><property><name>dfs.namenode.httpaddress</name><value>namenode:50070</value></property><property><name>dfs.datanode.httpaddress</name><value>datanode:50075</value></property><property><name>dfs.datanode.dfsnaclient.bindaddress</name><value>0.0.0.0</value></property>
</configuration>
4. 配置 mapred-site.xml
sudo nano /opt/hadoop-3.3.6/etc/hadoop/mapred-site.xml
添加以下内容:
<configuration><property><name>mapreduce.jobhistory.address</name><value>jobhistorynode:10020</value></property><property><name>mapreduce.jobhistory.httpaddress</name><value>jobhistorynode:10020</value></property>
</configuration>
5. 配置 yarn-site.xml
sudo nano /opt/hadoop-3.3.6/etc/hadoop/yarn-site.xml
添加以下内容:
<configuration><property><name>yarn.resourcemanager.hostname</name><value>resourcemanager</value></property><property><name>yarn.resourcemanager.webapp.address</name><value>resourcemanager:8088</value></property><property><name>yarn.resourcemanager.scheduler.address</name><value>resourcemanager:8030</value></property><property><name>yarn.resourcemanager.resource-tracker.address</name><value>resourcemanager:8031</value></property><property><name>yarn.resourcemanager.nodemanager.address</name><value>namenode:8042</value></property><property><name>yarn.resourcemanager.nodemanager.httpaddress</name><value>namenode:8042</value></property><property><name>yarn.resourcemanager.scheduler.class</name><value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler</value></property>
</configuration>五、格式化 HDFS
hadoop namenode -format六、启动 Hadoop 集群
1. 启动 NameNode 和 DataNode
start-dfs.sh
2. 启动 YARN
start-yarn.sh七、验证安装
1. 检查 NameNode 是否运行
jps
你应该看到 NameNode, DataNode, NodeManager, ResourceManager 等进程。
2. 检查 Hadoop 端口是否开放
netstat -tuln | grep 50070
netstat -tuln | grep 8088
netstat -tuln | grep 8042八、可选:配置 SSH 防火墙
如果你使用的是防火墙(如 ufw 或 iptables),请确保开放以下端口:
sudo ufw allow 8088
sudo ufw allow 50070
sudo ufw allow 8042
sudo ufw allow 10020
sudo ufw enable九、其他注意事项
如果你使用的是 Kubernetes 或 Docker,可以使用hadoop 镜像进行快速部署。
如果你使用的是 Hadoop 3.x,需要确保你的 Hadoop 版本与集群中其他节点的版本一致。
如果你使用的是 Hadoop 2.x,配置文件路径可能略有不同。十、Hadoop 常用命令
命令 作用hadoop version
查看 Hadoop 版本hadoop dfs -ls /
列出 HDFS 中的文件hadoop jar hadoop-mapreduce-examples-3.3.6.jar
运行 Hadoop 示例程序hadoop fs -put localfile /hdfs/path
将本地文件上传到 HDFShadoop fs -get /hdfs/path localfile
将 HDFS 文件下载到本地如需进一步配置 Hadoop 集群(如高可用、负载均衡等),可以参考官方文档 Hadoop 3.3.6 官方文档。
如需安装 Hadoop 2.x 或 3.x,请告知具体版本,我可以提供更详细的安装指南。
文章转自:[命运神界梦境链接角色介绍 ] (https://www.52mwyd.com/news/9640.html)
作者:游戏攻略,转载请注明原文链接:https://www.52mwyd.com/