提供手机自适应网站土木工程网官网登录
news/
2025/10/6 17:55:24/
文章来源:
提供手机自适应网站,土木工程网官网登录,软件外包价格一般多少,平台网站怎么做seoHadoop
1、 Hadoop的介绍
Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎#xff0c;包括网页抓取、索引、查询等功能#xff0c;但随着抓取网页数量的增加#xff0c;遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。2003年、20…Hadoop
1、 Hadoop的介绍
Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎包括网页抓取、索引、查询等功能但随着抓取网页数量的增加遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。
——分布式文件系统GFS可用于处理海量网页的存储
——分布式计算框架MAPREDUCE可用于处理海量网页的索引计算问题。
Nutch的开发人员完成了相应的开源实现HDFS和MAPREDUCE并从Nutch中剥离成为独立项目HADOOP到2008年1月HADOOP成为Apache顶级项目.
狭义上来说hadoop就是单独指代hadoop这个软件
HDFS 分布式文件系统MapReduce : 分布式计算系统Yarn分布式样集群资源管理
广义上来说hadoop指代大数据的一个生态圈包括很多其他的软件
2、hadoop的历史版本和发行版公司
2.1 Hadoop历史版本
1.x版本系列hadoop版本当中的第二代开源版本主要修复0.x版本的一些bug等
2.x版本系列架构产生重大变化引入了yarn平台等许多新特性
3.x版本系列: 加入多namenoode新特性
2.2 Hadoop三大发行版公司
免费开源版本apache:
http://hadoop.apache.org/
优点拥有全世界的开源贡献者代码更新迭代版本比较快
缺点版本的升级版本的维护版本的兼容性版本的补丁都可能考虑不太周到
apache所有软件的下载地址包括各种历史版本
http://archive.apache.org/dist/
hadoop下载地址
https://archive.apache.org/dist/hadoop/core/
免费开源版本hortonWorks
https://hortonworks.com/
hortonworks主要是雅虎主导Hadoop开发的副总裁带领二十几个核心成员成立Hortonworks核心产品软件HDPambariHDF免费开源并且提供一整套的web管理界面供我们可以通过web界面管理我们的集群状态web管理界面软件HDF网址http://ambari.apache.org/
软件收费版本ClouderaManager:
https://www.cloudera.com/
cloudera主要是美国一家大数据公司在apache开源hadoop的版本上通过自己公司内部的各种补丁实现版本之间的稳定运行大数据生态圈的各个版本的软件都提供了对应的版本解决了版本的升级困难版本兼容性等各种问题
3、hadoop的架构模型
1.x的版本架构模型介绍
文件系统核心模块
NameNode集群当中的主节点管理元数据(文件的大小文件的位置文件的权限)主要用于管理集群当中的各种数据
secondaryNameNode主要能用于hadoop当中元数据信息的辅助管理
DataNode集群当中的从节点主要用于存储集群当中的各种数据
数据计算核心模块
JobTracker接收用户的计算请求任务并分配任务给从节点
TaskTracker负责执行主节点JobTracker分配的任务
2.x的版本架构模型介绍
第一种NameNode与ResourceManager单节点架构模型
文件系统核心模块
NameNode集群当中的主节点主要用于管理集群当中的各种数据
secondaryNameNode主要能用于hadoop当中元数据信息的辅助管理
DataNode集群当中的从节点主要用于存储集群当中的各种数据
数据计算核心模块
ResourceManager接收用户的计算请求任务并负责集群的资源分配
NodeManager负责执行主节点APPmaster分配的任务
第二种NameNode单节点与ResourceManager高可用架构模型
文件系统核心模块
NameNode集群当中的主节点主要用于管理集群当中的各种数据
secondaryNameNode主要能用于hadoop当中元数据信息的辅助管理
DataNode集群当中的从节点主要用于存储集群当中的各种数据
数据计算核心模块
ResourceManager接收用户的计算请求任务并负责集群的资源分配以及计算任务的划分通过zookeeper实现ResourceManager的高可用
NodeManager负责执行主节点ResourceManager分配的任务
第三种NameNode高可用与ResourceManager单节点架构模型
文件系统核心模块
NameNode集群当中的主节点主要用于管理集群当中的各种数据其中nameNode可以有两个形成高可用状态
DataNode集群当中的从节点主要用于存储集群当中的各种数据
JournalNode文件系统元数据信息管理
数据计算核心模块
ResourceManager接收用户的计算请求任务并负责集群的资源分配以及计算任务的划分
NodeManager负责执行主节点ResourceManager分配的任务
第四种NameNode与ResourceManager高可用架构模型
文件系统核心模块
NameNode集群当中的主节点主要用于管理集群当中的各种数据一般都是使用两个实现HA高可用
JournalNode元数据信息管理进程一般都是奇数个
DataNode从节点用于数据的存储
数据计算核心模块
ResourceManagerYarn平台的主节点主要用于接收各种任务通过两个构建成高可用
NodeManagerYarn平台的从节点主要用于处理ResourceManager分配的任务
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/929568.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!