Hadoop:简单介绍

什么是Hadoop:

Hadoop是一种用Java编写的框架,用于在大型商品硬件集群上运行应用程序,并具有类似于Google File System和MapReduce的功能 。 HDFS是高度容错的分布式文件系统,与Hadoop一样,旨在部署在低成本硬件上。 它提供对应用程序数据的高吞吐量访问,并且适用于具有大数据集的应用程序。
谁使用Hadoop:

Hadoop主要由处理大量数据的公司使用。 他们可能需要处理数据执行分析生成报告 。 当前,所有领先的组织,包括Facebook,Yahoo,Amazon,IBM,Joost,PowerSet,New York Times,Veoh等,都在使用Hadoop。 有关更多信息,请查看PoweredBy Hadoop页面 。

为什么选择Hadoop:

MapReduce是Google的秘密武器:一种将复杂的问题分解并散布到许多计算机上的方法。 Hadoop是MapReduce及其自己的文件系统HDFS(Hadoop分布式文件系统)的开源实现。

Hadoop在某种程度上击败了超级计算机:

Hadoop集群在209秒内对1 TB的数据进行了排序,在年度通用(daytona)TB的基准测试中打破了之前297秒的记录。 排序基准由Jim Gray于1998年创建,它指定了输入数据(100亿条100字节记录),这些数据必须完全排序并写入磁盘。 这是Java或开放源代码程序的首次获奖。 有关更多信息, 请单击此处 。

欧洲最大的广告定位平台使用Hadoop:

欧洲最大的广告公司每天可获得超过100GB的数据,现在使用RDBMS等经典解决方案需要5天的时间进行分析并生成报告。 因此他们落后1个弱点。 经过大量研究,他们开始使用hadoop。 现在有趣的事实是“ Tey能够在1小时内处理数据并生成报告”,这就是Hadoop的魅力所在。 有关更多信息, 请单击此处

Hadoop的主要发行版:

1. Apache Hadoop:

Apache Hadoop项目开发了用于可靠,可扩展的分布式计算的开源软件。

Apache Hadoop提供:

  • Hadoop Common支持其他Hadoop子项目的通用实用程序。
  • HDFS一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。
  • MapReduce一个用于在计算集群上对大型数据集进行分布式处理的软件框架。
  • Avro数据序列化系统。
  • Chukwa用于管理大型分布式系统的数据收集系统。
  • HBase可扩展的分布式数据库,支持大型表的结构化数据存储。
  • Hive一种数据仓库基础结构,可提供数据汇总和即席查询。
  • Mahout可扩展的机器学习和数据挖掘库。
  • Pig用于并行计算的高级数据流语言和执行框架。
  • ZooKeeper针对分布式应用程序的高性能协调服务。

2. Cloudera Hadoop:

Cloudera的Apache Hadoop发行版(CDH)为基于Hadoop的数据管理平台设定了新标准。 它是当今可用的最全面的平台,可显着加速组织中Apache Hadoop的部署。 CDH基于Apache Hadoop的最新稳定版本。 它包括一些从将来发行版反向移植的有用补丁,以及我们为客户开发的改进

Cloudera Hadoop提供:

  • HDFS –自愈式分布式文件系统
  • MapReduce –强大的并行数据处理框架
  • Hadoop Common –一组支持Hadoop子项目的实用程序
  • HBase – Hadoop数据库,用于随机读写访问
  • Hive –大型数据集上类似SQL的查询和表
  • Pig –数据流语言和编译器
  • Oozie –相互依赖的Hadoop作业的工作流程
  • Sqoop –将数据库和数据仓库与Hadoop集成
  • Flume –高度可靠,可配置的流数据收集
  • Zookeeper –分布式应用程序的协调服务
  • Hue –用于可视Hadoop应用程序的用户界面框架和SDK
Hadoop体系结构:
Hadoop分布式文件系统(HDFS)是一种旨在在商品硬件上运行的分布式文件系统。 它与现有的分布式文件系统有许多相似之处。 但是,与其他分布式文件系统的区别很明显。 HDFS具有高度的容错能力,旨在部署在低成本硬件上。 HDFS提供对应用程序数据的高吞吐量访问,并且适用于具有大数据集的应用程序。 HDFS放宽了一些POSIX要求,以实现对文件系统数据的流式访问。
名称节点:
NameNode管理名称空间,文件系统元数据和访问控制。 每个群集中只有一个NameNode。 我们可以说NameNode是主节点,数据节点是从节点。 它包含有关数据(即元数据)的所有信息
数据节点:
DataNode保存实际的文件系统数据。 每个数据节点管理其自己的本地连接的存储(即节点的硬盘),并在文件系统中存储一些或所有块的副本。 每个群集中有一个或多个DataNode。
安装/部署Hadoop:

Hadoop可以三种方式安装
1.独立模式:
要以独立模式部署Hadoop,我们只需要设置JAVA_HOME的路径即可。 在这种模式下,不需要启动守护程序,也不需要名称节点格式,因为数据保存在本地磁盘中。
2.伪分布式模式:
在这种模式下,所有守护程序(nameNode,dataNode,secondaryNameNode,jobTracker,taskTracker)都在一台机器上运行。

在此模式下,守护程序(nameNode,jobTracker,secondaryNameNode(可选))在主服务器(NameNode)上运行,守护程序(dataNode和taskTracker)在从属服务器(DataNode)上运行。 请继续关注有关三种Hadoop模式/配置的文章。

相关文章 :

  • MapReduce:简单介绍
  • Cajo,用Java完成分布式计算的最简单方法
  • Hibernate映射集合性能问题
  • Java Code Geeks Andygene Web原型
  • Servlet 3.0异步处理可将服务器吞吐量提高十倍


参考:通过高性能计算博客上的 JCG合作伙伴 了解什么是Hadoop 。

翻译自: https://www.javacodegeeks.com/2011/05/hadoop-soft-introduction.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/374567.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PHP中__get()和__set()的用法实例详

刚刚看到一个对我有用的文章,我就把它摘抄下来了。 php面向对象_get(),_set()的用法 一般来说,总是把类的属性定义为private,这更符合现实的逻辑。但是,对属性的读取和赋值操作是非常频繁的,因此在PHP5中&#xff0…

Javascript 异步编程的4种方法

你可能知道,Javascript语言的执行环境是"单线程"(single thread)。 所谓"单线程",就是指一次只能完成一件任务。如果有多个任务,就必须排队,前面一个任务完成,再执行后面一…

力扣奇偶链表

给定单链表的头节点 head ,将所有索引为奇数的节点和索引为偶数的节点分别组合在一起,然后返回重新排序的列表。 第一个节点的索引被认为是 奇数 , 第二个节点的索引为 偶数 ,以此类推。 请注意,偶数组和奇数组内部的…

JAVA入门之方法

所谓方法,就是用来解决一类问题的代码的有序组合,是一个功能模块。 一般情况下,定义一个方法的语法是: 其中: 1、 访问修饰符:方法允许被访问的权限范围, 可以是 public、protected、private 甚…

使用Netbeans开发App Engine Java

如果您刚开始进行App引擎开发,那么您可能会感觉Eclipse是首选的IDE。 而且,Google还单独提供了它的Eclipse IDE 官方插件 。 但是不使用Eclipse的人呢? 当然,您始终可以进行命令行开发,但是现在这些人是谁!…

JAVA基本类库介绍

我们曾经讲过,Java已经为编程者编制了许多类,这些类已经经过测试,基本上不存在错误,这些类都是我们编程的基础。如果不利用这些已存在的类,我们的 编程工作将变得异常复杂,所以我们应尽可能多的掌握Java基本…

力扣回文链表

给你一个单链表的头节点 head &#xff0c;请你判断该链表是否为回文链表。如果是&#xff0c;返回 true &#xff1b;否则&#xff0c;返回 false 。 class Solution {public boolean isPalindrome(ListNode head) {List<Integer> res new ArrayList<Integer>()…

JAVA运算符和优先级

1、算术运算符&#xff1a; 和 -- 既可以出现在操作数的左边&#xff0c;也可以出现在右边&#xff0c;但结果是不同&#xff0c;如&#xff1a; ①int a5&#xff1b;int ba&#xff1b; #先把a赋给b&#xff0c;a再自增 ②int a5&#xff1b;int ba&#xff1b;   #a先…

将JSON功能添加到您的GWT应用程序中

JSON简介 在Web应用程序上工作时&#xff0c;总是会出现客户端-服务器数据交换的问题。 在此问题上有多种方法&#xff0c;其中许多使用XML进行交换。 执行此任务的一种不太知名的格式是JSON。 JSON&#xff08;JavaScript对象表示法&#xff09;是一种轻量级的数据交换格式。…

win10资源管理器怎么打开_让你效率倍增的电脑神器,最强资源管理器增强工具「QTTabBar」...

前言Windows 自带的资源管理器的功能比较简单&#xff0c;够用是够用了&#xff0c;但有时也确实无法满足我们对更便捷高效的操作方式的追求。「QTTabBar」正是一个非常强大的 Windows 资源管理器增强工具&#xff01;不仅支持多标签页管理&#xff0c;还有许多便捷的扩展功能&…

android横向滑动选择的view

做文字编辑&#xff0c;从网上找来的。 HorizontalScrollSelectView&#xff1a; public boolean mAlwaysOverrideTouch true;protected ListAdapter mAdapter;private int mLeftViewIndex -1;private int mRightViewIndex 0;protected int mCurrentX;protected int mNextX;…

适用于Mac OS X的官方Java 7 –状态

希望到现在&#xff0c;每个人都知道苹果公司去年加入了OpenJDK项目。 这意味着什么&#xff1f; 苹果将​​把用于私有Mac Java构建的代码作为GPL代码贡献给OpenJDK 甲骨文将接管Java的Mac端口 随着时间的流逝&#xff0c;Mac平台将成为Java世界中完全一流的公民 对于想要在…

excel使用教程_数据分析Excel必备技能:数据透视表使用教程

江米小枣tonylua | 作者掘金 | 来源处理数量较大的数据时&#xff0c;一般分为数据获取、数据筛选&#xff0c;以及结果展示几个步骤。在 Excel 中&#xff0c;我们可以利用数据透视表(Pivot Table)方便快捷的实现这些工作。本文首先手把手的教你如何在 Excel 中手动构建一个基…

.典型用户 - 场景

典型用户&#xff1a; 名字黄德胜性别、年龄男&#xff0c;35岁职业自由投资人收入20万元/年知识层次和能力专科&#xff0c;有一定的投资经验&#xff0c;对经济有自己的看法生活/工作情况已婚&#xff0c;生活负担在加重动机&#xff0c;目的&#xff0c;困难想要增加收入&am…

java调用webservice_笃学私教:Java开发网站架构演变过程-从单体应用到微服务架构详解...

原标题&#xff1a;笃学私教&#xff1a;Java开发网站架构演变过程-从单体应用到微服务架构详解Java开发网站架构演变过程&#xff0c;到目前为止&#xff0c;大致分为5个阶段&#xff0c;分别为单体架构、集群架构、分布式架构、SOA架构和微服务架构。下面玄武老师来给大家详细…

再把你的钱加倍

总览 很久以前&#xff0c;我写了一篇关于用双倍赚钱的文章。 但是&#xff0c;当解决方案相当简单时&#xff0c;仍然是许多开发人员普遍担心的问题。 用双倍赚钱的问题 double有两种类型的错误。 它存在表示错误。 即&#xff0c;它不能完全代表所有可能的十进制值。 即使0…

单元测试中Assert类的用法

Assert类所在的命名空间为Microsoft.VisualStudio.TestTools.UnitTesting 在工程文件中只要引用Microsoft.VisualStudio.QualityTools.UnitTestFramework.dll就可以使用了&#xff0c; 在这里我会举例说明Assert里面的一些主要的静态成员。 1、 AreEqual&#xff1a;方法被重载…

CocoaPods安装使用

$ gem sources --remove https://rubygems.org/ //等有反应之后再敲入以下命令 $ gem sources -a http://ruby.taobao.org/*** CURRENT SOURCES ***http://ruby.taobao.org/ //出现这个说明安装正确$ sudo gem install cocoapods 安装cocoaPods到项目的路径下 $ touch Pod…

303. 区域和检索 - 数组不可变(数组前缀和知识应用)

给定一个整数数组 nums&#xff0c;处理以下类型的多个查询: 计算索引 left 和 right &#xff08;包含 left 和 right&#xff09;之间的 nums 元素的 和 &#xff0c;其中 left < right 实现 NumArray 类&#xff1a; NumArray(int[] nums) 使用数组 nums 初始化对象 in…

pat1049. Counting Ones (30)

1049. Counting Ones (30) 时间限制10 ms内存限制65536 kB代码长度限制16000 B判题程序Standard作者CHEN, YueThe task is simple: given any positive integer N, you are supposed to count the total number of 1s in the decimal form of the integers from 1 to N. For ex…