Hadoop 面试题（一）

1. 简述Hadoop核心组件？

Hadoop是一个开源的分布式计算平台，其核心组件主要包括以下几个方面：

HDFS (Hadoop Distributed File System)：
- 一个分布式文件系统，用于在廉价的硬件上存储和管理大量数据。
MapReduce：
- 一个编程模型和软件框架，用于处理和生成大数据集，通过Map（映射）和Reduce（归约）两个步骤实现数据处理。
YARN (Yet Another Resource Negotiator)：
- 一个资源管理平台，用于协调不同计算任务的资源分配，是Hadoop集群的中央调度器。
Hadoop Common：
- 包含Hadoop生态系统中所有项目共有的一些Java库和工具。
NameNode：
- HDFS中的主节点，负责管理文件系统的命名空间和客户端对文件的访问。
DataNode：
- HDFS中的工作节点，负责存储实际的数据块，并根据NameNode的指令进行数据块的复制和删除。
ResourceManager：
- YARN的中心组件，负责管理集群资源和调度作业。
NodeManager：
- YARN中的工作节点组件，负责管理单个节点上的计算资源和任务执行。
JobTracker（在Hadoop 1.x中）：
- 在Hadoop 1.x版本中负责作业的调度和监控，已被YARN的ResourceManager和NodeManager取代。
Secondary NameNode：
- 辅助NameNode的节点，用于合并EditLog和FsImage，减轻NameNode的负担。
Hadoop Daemons：
- 包括NameNode、DataNode、ResourceManager、NodeManager等守护进程，它们是Hadoop集群的后台服务。
Hadoop Command-line Interface (CLI)：
- 提供了一系列命令行工具，用于与Hadoop集群交互。
Hadoop Libraries：
- 包括用于处理数据的库，如用于序列化和反序列化的库。

这些组件共同构成了Hadoop生态系统的基础，使其能够高效地处理和分析大规模数据集。随着Hadoop的发展，还出现了许多其他组件和工具，如HBase、Hive、Pig等，它们扩展了Hadoop的功能，使其更加强大和灵活。

2. 简述Hadoop的特点？

Hadoop是一个开源的分布式计算平台，主要用于处理和存储大量数据。以下是Hadoop的一些主要特点：

可扩展性：
- Hadoop可以水平扩展，从单一服务器到数千个节点的集群。
高可靠性：
- 通过数据复制和自动故障检测与恢复，Hadoop提供了高可靠性。
高吞吐量：
- 优化了对大规模数据集的访问，提供高吞吐量的数据访问和处理。
数据并行：
- 支持并行数据处理，可以在多个节点上同时处理数据的不同部分。
分布式存储：
- HDFS（Hadoop Distributed File System）是一个分布式文件系统，可以存储大量数据。
分布式计算：
- MapReduce是一种编程模型，用于在Hadoop集群上进行分布式计算。
数据本地性：
- 计算任务尽可能在存储数据的节点上执行，减少网络传输。
容错性：
- 通过在多个节点上存储数据的副本，Hadoop能够容忍硬件故障。
成本效益：
- 设计用于在商用硬件上运行，降低了大规模数据处理的成本。
简单性：
- Hadoop的API和架构设计简单，易于使用和维护。
多语言支持：
- 提供了多种编程语言的API，包括Java、C++、Python等。
生态系统：
- Hadoop有丰富的生态系统，包括Hive、Pig、HBase、Spark等，这些工具和服务扩展了Hadoop的功能。
批处理优化：
- 主要针对批量数据处理进行优化，适合非实时数据分析。
流处理能力：
- 虽然主要是批处理系统，但通过YARN（Yet Another Resource Negotiator）和相关技术，Hadoop也能支持流处理。
数据访问模式：
- 适合于“写一次读多次”的场景，因为写入后的数据会被切分成多个块并复制到多个节点。

Hadoop的这些特点使其成为大规模数据存储和处理的理想选择，特别是在成本敏感和数据密集型的应用场景中。

3. 简述Hadoop 1.x，2.x，3.x的区别？

Hadoop 1.x、2.x和3.x是Apache Hadoop的三个主要版本，它们在功能、性能和架构上都有显著的区别。以下是这些版本之间的一些关键差异：

Hadoop 1.x

单点架构：Hadoop 1.x使用单一的NameNode和JobTracker，这限制了系统的可扩展性和容错能力。
MapReduce：1.x版本主要使用MapReduce作为数据处理模型。
HDFS：只有基本的HDFS功能，没有快照、HA等高级特性。
内存和存储：NameNode使用本地文件系统作为其元数据的存储，这限制了其扩展性。

Hadoop 2.x

YARN引入：引入了Yet Another Resource Negotiator（YARN）作为集群资源管理器，分离了计算和存储，提高了资源利用率。
高可用性（HA）：通过配置多个NameNode（一个Active和一个Standby），提高了HDFS的可用性。
MapReduce 2：改进了MapReduce模型，包括更好的资源管理和作业调度。
支持多种计算模型：YARN允许运行除MapReduce之外的其他计算模型，如Apache Spark、Apache Tez等。
联邦HDFS：支持多个NameSpace，允许更大的集群规模。
Rolling Upgrades：支持滚动升级，可以在不停机的情况下升级集群。

Hadoop 3.x

可扩展性：进一步提高了Hadoop的可扩展性，支持更大规模的集群。
Erasure Coding：引入了纠删码技术，提高了存储效率。
改进的HDFS HA：通过引入QJM（Quorum Journal Manager）和ZKFC（ZooKeeper Failover Controller），改进了HDFS的高可用性实现。
更好的内存管理：优化了NameNode的内存管理，减少了内存消耗。
支持多租户：改进了对多租户的支持，允许更好的资源隔离和安全性。
Cross-Realm Authentication：支持跨域认证，改进了安全性。
Decommissioning：改进了DataNode的退役（decommissioning）过程，使其更加稳定和可靠。
支持Windows：提高了对Windows平台的支持。

每个版本的Hadoop都反映了当时社区和用户需求的变化，以及技术进步。随着版本的迭代，Hadoop不断增强其性能、可靠性和易用性。

4. 简述Hadoop集群工作时启动哪些进程？它们有什么作用？

Hadoop集群在工作时会启动多个关键进程，每个进程都有特定的作用，以确保集群的正常运行和数据处理。以下是Hadoop集群中常见的一些核心进程及其作用：

NameNode：
- NameNode是HDFS的主节点，负责管理文件系统的命名空间和客户端对文件的访问。它存储了文件系统树和元数据信息。
Secondary NameNode：
- Secondary NameNode并不是NameNode的备份，而是辅助NameNode工作，负责合并编辑日志和文件系统映像，以减少NameNode的内存压力。
DataNode：
- DataNode是HDFS的工作节点，负责存储实际的数据块，并处理与数据相关的读写请求。
ResourceManager（YARN）：
- ResourceManager是YARN的中心组件，负责整个集群的资源管理和调度。它分配资源给各个应用程序，并跟踪应用程序的进度。
NodeManager：
- NodeManager运行在每个计算节点上，负责管理单个节点的资源使用情况，监控容器的运行状态，并将信息汇报给ResourceManager。
ApplicationMaster：
- ApplicationMaster是YARN中应用程序的控制接口，负责资源请求、任务调度和应用程序的状态监控。
Container：
- Container是YARN中的资源容器，它封装了任务所需的CPU、内存等资源，并运行在NodeManager上。
ZooKeeper：
- ZooKeeper用于集群的协调服务，如NameNode高可用性（HA）中的选举和状态同步。
HDFS Balancer：
- Balancer是一个工具，用于在DataNode之间平衡数据存储，优化存储资源的使用。
Hive Server：
- Hive Server提供了Hive查询语言的接口，允许用户执行SQL-like查询来分析存储在HDFS中的数据。
HBase Master 和 HBase RegionServer：
- 对于HBase，Master负责协调集群的元数据管理，而RegionServer负责处理对数据的读写请求。
Spark Context：
- 在使用Apache Spark时，Spark Context是与集群管理器（如YARN）交互的主要接口，负责资源的申请和任务的调度。
History Server：
- History Server记录了MapReduce和YARN作业的历史信息，供用户查询和分析作业执行情况。
JobTracker（老版本MapReduce）：
- 在老版本的MapReduce中，JobTracker负责监控所有作业的执行状态和任务调度，类似于YARN的ResourceManager。
TaskTracker（老版本MapReduce）：
- TaskTracker是JobTracker的工作节点，负责执行任务并汇报状态给JobTracker。

这些进程共同协作，确保了Hadoop集群能够高效地存储、管理和处理大规模数据集。随着Hadoop生态系统的发展，一些新的组件和进程也可能被引入到集群中。

5. 简述搭建Hadoop集群的xml文件有哪些？

搭建Hadoop集群时，需要配置多个XML文件来设置集群的属性和参数。以下是一些主要的配置文件：

core-site.xml：
- 包含了Hadoop集群的核心配置，如HDFS的URI，NameNode的地址等。
hdfs-site.xml：
- 包含了HDFS特有的配置，例如副本因子（dfs.replication）、块大小（dfs.blocksize）和高可用性设置。
mapred-site.xml：
- 包含了MapReduce作业配置，如框架名称（mapreduce.framework.name）和作业的默认资源需求。
yarn-site.xml：
- 包含了YARN资源管理器的配置，如ResourceManager的地址、NodeManager的资源限制等。
hadoop-env.sh 和 yarn-env.sh：
- 这些shell脚本文件包含了环境变量的设置，如Java的路径、Hadoop集群的日志目录等。
slaves/workers 或 masters 文件：
- 这些文件列出了集群中所有工作节点（DataNode和NodeManager）和NameNode、ResourceManager的主机名或IP地址。
log4j.properties：
- 用于配置Hadoop的日志记录级别和日志文件的存放位置。
ssl-server.xml 和 ssl-client.xml（如果使用安全模式）：
- 包含了SSL配置，用于加密客户端和服务器之间的通信。
kms-site.xml（如果使用Hadoop Key Management Server）：
- 包含了密钥管理服务器的配置，用于存储加密密钥。
hadoop-policy.xml：
- 包含了Hadoop策略配置，用于访问控制。