大数据课程D1——hadoop的初识

文章作者邮箱:yugongshiye@sina.cn              地址:广东惠州

 ▲ 本章节目的

⚪ 了解大数据的概念;

⚪ 了解大数据的部门结构;

⚪ 了解hadoop的定义;

⚪ 了解hadoop的发展史;

一、大数据简介

1. 概述

1. 美国调研机构Gartner给出了定义:大数据是一种新的处理模式,针对海量数据能够提供更强的决策力、洞察发现力和流程优化能力。

2. 维基百科给出了定义:大数据是指无法在可承受的时间范围内用常规的软件或者法来对大量的数据进行捕捉、管理和处理。

3. 无论哪个机构对大数据进行定义,实际上都是围绕对海量数据进行快速有效的处理方案。

2. 特点

1. Volumn:数据体量大。很多中小型企业的入门数据量是从TB级别开始,很多大型的企业的入门数据量是从PB级别开始。很多大型的企业,累计数据量已经达到了EB甚至ZB级别。

2. Variety:数据种类样式和来源多:

a. 种类:文本(日志)、图片、音频、视频、flash等。

b. 样式:结构化数据(数据本身有结构并且数据解析之后能够用一张或者几张固定的表来进行存储);半结构化数据(数据本身有结构但是解析之后无法用一张或者几张固定的表来进行存储,例如json,xml等);非结构化数据(数据本身没有结构并且解析之后无法用几张固定的表来进行存储)。

c. 来源:日志、爬虫、网页埋点、手动录入、数据库等。

3. Value:数据价值密度低。价值密度指的是想要的数据在总的数据量中的占比。随着网络的发展,价值密度越来越低,但是不意味着获取到的数据越来越少,恰恰相反,获取到的数据是在变多的。只是想要的数据的增长速度比不上样本总量的增长速度。

4. Velocity:数据增长速度快。随着网络的发展,数据的产生速度以及增长速度越来越快。

5. Veracity:数据的质量,即数据的准确性和可信赖度。随着信息的爆炸以及网络的发展,信息的来源良莠不齐,导致数据的可信赖度变得不同。

6. Valence:数据的连通性。随着大数据的发展,衍生出来了很多的技术、模块和产业,这个时候,就不得不考虑这些模块、技术和产业之间的关系。

7. 随着大数据的发展,产生了越来越多的特性:Vitality(动态性)、Visualization(可视化)、Validity(合法性,例如大数据杀熟、APP的过度索权)等。

3. 应用场景

1. 物流仓储:利用大数据对配送路线、物流中转点进行设计。

2. 电商零售:利用大数据技术对用户的消费行为进行分析,抓住用户的心理变化,来做到精准营销。

3. 旅游:利用大数据技术来为用户进行合理规划(经济能力、路线等)。

4. 保险:利用大数据技术进行精准营销、风险预测。

5. 金融:利用大数据技术对用户进行抗压预测以及风险控制。

6. 人工智能:利用大量数据对模型进行训练,提高模型的准确性。

4. 组织结构

二、Hadoop简介

1. 概述

1. Hadoop是由Yahoo!开发的的后来贡献给了Apache的一套开源的、可靠的、可伸缩的分布式机制。

2. Hadoop是大数据生态系统中的基础框架,在大数据中,有超过70%的技术或者产业是围绕Hadoop产生的。

3. Hadoop提供了简单的编程模型来对大量数据进行分布式处理。

4. Hadoop能够从一台服务器扩展到上千台服务器,每一台服务器都能够提供计算和存储的功能。

5. Hadoop本身提供了探测和处理异常的机制。

6. Hadoop之父:Doug Cutting(道格.卡丁)。

7. Hadoop的发行版:

a. Apache Hadoop:最基础、最原始的版本。相对而言,部署和维护比较复杂,但是适合于初学者,因为它没有将细节隐藏,更适合于理解底层机制。

b. CDH:Cloudera公司推出的商用版本的Hadoop。这版Hadoop更易于部署和维护,能够相对轻松的扩展集群规模。Cloudera的标价是每个节点每年4000美元(现在每一个节点的价钱飙升到了10000美元)。

c. HDP:Hortonworks提供的商用版本的Hadoop,更注重分布式存储,增强了分布式存储的功能。Hortonworks在售卖的时候,以打包的方式来售卖,每个包(包含不超过10个节点)每年收费12500美元。最近,Hortonworks已经被Cloudera公司收购。

8. Apache Hadoop目前的版本比较混乱。目前市面上,Hadoop2.X和Hadoop3.X都在流行使用。

 2. 版本

 1. Hadoop1.X:包含了Common、HDFS和MapReduce模块。现在市面上已经停止使用。

2. Hadoop2.X:包含了Common、HDFS、MapReduce以及YARN模块。从Hadoop2.7版本开始,还包含了Ozone模块。Hadoop2.X和Hadoop1.X全版本不兼容。

3. Hadoop3.X:包含了Common、HDFS、MapReduce、YARN和Ozone模块。Hadoop3.X和Hadoop2.X部分版本兼容。

3. 模块

1. Hadoop Common:公共依赖模块。

2. Hadoop Distributed File System (HDFS™):分布式文件系统,解决存储问题。

3. Hadoop YARN:负责任务调度和集群的资源管理。

4. Hadoop MapReduce:基于YARN的分布式计算系统。

5. Hadoop Ozone:对象存储。

4. 安装模式

1. 单机模式:在一台服务器上安装Hadoop,只能启动Hadoop的MapReduce模块。

2. 伪分布式:在一台服务器上安装Hadoop,利用多个进程来模拟Hadoop集群环境,能够启动Hadoop的绝大部分主要服务。

3. 完全分布式:在集群中安装Hadoop,能够启动Hadoop中的所有的服务。

5. web访问端口

Process

Hadoop2.X

Hadoop3.X

NameNode

50070

9870

SecondaryNameNode

50090

9868

DataNode

50075

9864

ResourceManager

8088

8088

NodeManager

X

X

三、Hadoop的发展史

1. 创始人

1. Doug Cutting:创建了Lucene,与Mike Cafarella共同创建了搜索引擎Nutch。

2. Mike Cafarella:是一位专攻数据库管理系统的科学家。

2. 发展历程

1. 早在2002年的时候,Doug和Mike设计一个搜索引擎Nutch,爬取了全网10亿个网页的数据,爬取完成之后,在设计搜索引擎的过程中,遇到了存储的问题。

2. 在2003年的时候,Google发表了一篇论文<The Google File System>(GFS),阐述了分布式存储的思想和原理,但是并没有对外公开这个框架。

3. 在2004年的时候,Doug和Mike根绝GFS实现了Nutch中的存储系统 - NDFS(Nutch Distributed File System - Nutch分布式文件系统)。

4. 在2004年的时候,Google发表了一篇论文<The Google MapReduce>,阐述了分布式计算的思想和原理,但是同样没有对外公开使用这个框架。

5. 在2005年的时候,Doug根据这篇论文实现了Nutch中的MapReduce。

6. 在Nutch0.8的时候,Doug发现NDFS和MapReduce不只可以用于搜索引擎,也可以用于其他的分布式处理,所以就把NDFS和MapReduce以及其他的一些需要的基本以来分离出来,组成了一个新的框架Hadoop,同时NDFS改名为HDFS(Hadoop Distributed File System),至此,Hadoop正式面世。

7. 在2007年11月的时候,Doug加入了Yahoo!,在Yahoo!工作期间,深度开发了Hadoop,后来还根据网友的建议,实现了HBase、Pig等框架。

8. 后来Yaoo!将Hadoop、HBase、Pig等框架贡献给了Apache。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/9182.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

STM32 Flash学习(二)

STM32F1的官方固件库操作FLASH的几个常用函数。这些函数和定义分布在源文件stm32f1xx_hal_flash.c/stm32f1xx_hal_flash_ex.c以及头文件stm32f1xx_hal_flash.h/stm32f1xx_hal_flash_ex.h中。 锁定解函数 对FLASH进行写操作前必须先解锁&#xff0c;解锁操作&#xff1a;在FLA…

GB/T 25000.51解读——软件产品的兼容性怎么测?

GB/T 25000.51-2016《软件产品质量要求和测试细则》是申请软件检测CNAS认可一定会用到的一部国家标准。在前面的文章中&#xff0c;我们为大家整体介绍了GB/T 25000.51-2016《软件产品质量要求和测试细则》国家标准的结构和所涵盖的内容以及对软件产品的八大质量特性中的功能性…

GPU压力测试篇- TensorFlow

简介 该文档介绍使用Tensorflow框架&#xff0c;测试 NVIDIA 驱动的常见python 代码。 环境信息 编号 软件 软件版本 备注 01 驱动 470.57.02 02 cuda 版本 11.2 03 cudnn 版本 8.1.1.33 04 tensorflow 2.6 功能测试代码&#xff1a; import tensor…

基于Matlab实现30种电力电子仿真模型(附上完整源码)

本文介绍了如何使用Matlab来实现电力电子仿真模型&#xff0c;并提供了一个简单的代码示例&#xff0c;展示了如何建立一个逆变器的仿真模型并进行仿真分析。 文章目录 1. 引言2. Matlab实现电力电子仿真模型的基本步骤3. 逆变器仿真模型的示例代码4. 结果分析5. 结论6. 30个完…

如何备份与恢复MySQL数据库数据

目录 数据备份的重要性 造成数据丢失的原因 备份的主要目的 日志 数据库备份类型 逻辑备份 完全备份 差异备份 增份&#xff08;增量备份&#xff09; 备份方式比较 三、常见的备份方法 物理冷备 专用备份工具mysqldump 或mysqlhotcopy 启用二进制日志进行增量备份…

第5讲-搭建kubernetes集群

一、minikube ​ minikube 是一个工具&#xff0c; 能让你在本地运行 Kubernetes。 minikube 在你的个人计算机&#xff08;包括 Windows、macOS 和 Linux PC&#xff09;上运行一个一体化&#xff08;all-in-one&#xff09;或多节点的本地 Kubernetes 集群&#xff0c;以便你…

所有docker命令无效,解决办法

目录 ■前言 今天使用docker时&#xff0c;所有命令无效 ■解决办法如下 1.停止docker服务 2.查看状态 3.删除之前的docker相关的文件 4.再次查看状态 5.使用相关命令 &#xff08;好用了&#xff09; 6.重新下载镜像 ■前言 今天使用docker时&#xff0c;所有命令无…

DES加密的基本常识和封装类

DES加密的基本常识和封装类 DES&#xff08;Data Encryption Standard&#xff09;是一种对称加密算法&#xff0c;它是在1977年由IBM所提出&#xff0c;并在1981年被美国国家标准局&#xff08;NIST&#xff09;确定为数据加密标准。DES使用相同的密钥对数据进行加密和解密&a…

Python + Playwright 无头浏览器Chrome找不到元素

用Python Playwright调试时&#xff0c;发现不用无头浏览器&#xff08;即headlessFalse&#xff09;代码能够运行成功&#xff0c;但是一用无头浏览器时&#xff08;即headlessTrue&#xff09;就会报错&#xff0c;提示找不到元素。换成Firefox浏览器又不会有这个问题&#…

redhat官网下载7.9版本iso

redhat官方地址 https://developers.redhat.com/products/rhel/download 下载前会让你先登录&#xff0c;如果没有账号就需要先去注册账号哟。

《向量数据库指南》:向量数据库Pinecone备份索引教程

目录 ⚠️警告 使用集合创建备份 检查集合的状态 列出您的集合 删除一个集合 本文档描述如何使用集合备份索引。 要了解如何从集合创建索引,请参阅管理索引。 ⚠️警告 本文档使用集合。这是一个公开预览功能。在使用此功能生产负载之前,请进行充分测试。 使用集合…

利用OpenMP优化Opencv图像处理

当使用OpenMP进行图像处理时&#xff0c;可以通过线程ID来控制每个线程处理的行数位置&#xff0c;实现并行处理图像的不同部分。以下是一个示例代码&#xff0c;展示了如何使用OpenMP对图像进行并行处理&#xff1a; #include <iostream> #include <opencv2/opencv.…

webpack xxx is not a constructor

环境 webpack5.88.2 vue-router 按需引入 原因 模块循环引用导致 有A B C三个模块 A B模块import C 中导出的class c又依赖B 中Class 的方法 B 又依赖C中的class 此时会导致import 的 C 为undefined

【C语言】9-三大结构之选择结构-3

1. 综合举例 1.1 例1 编写一个程序完成输入一个 1-7 中的数字,输出对应的是星期几 这里推荐使用 Visio 或者类似的软件来画一个流程图。在进行程序设计时,尤其是大型项目时,软件流程图可以帮助我们很好的分析程序的结构以及结构需求,跟着流程图来写程序可以让写出来的程序…

【Matlab】基于长短期记忆网络的数据分类预测(Excel可直接替换数据)

【Matlab】基于长短期记忆网络的数据分类预测(Excel可直接替换数据) 1.模型原理2.数学公式3.文件结构4.Excel数据5.分块代码6.完整代码7.运行结果1.模型原理 “基于长短期记忆网络的数据分类预测”是一种利用长短期记忆网络(Long Short-Term Memory, LSTM)进行数据分类任务…

【C++】多态原理剖析,Visual Studio开发人员工具使用查看类结构cl /d1 reportSingleClassLayout

author&#xff1a;&Carlton tag&#xff1a;C topic&#xff1a;【C】多态原理剖析&#xff0c;Visual Studio开发人员工具使用查看类结构cl /d1 reportSingleClassLayout website:黑马程序员C tool&#xff1a;Visual Studio 2019 date&#xff1a;2023年7月24日 目…

【每日一个知识点二】原型链

我都是想到啥写啥&#xff0c;丝毫没有规律。前面聊到箭头函数没有原型&#xff0c;就想到了再整理一篇原型链的。 原型 原型是JavaScript中对象的一个属性&#xff0c;它指向另一个对象&#xff0c;用于实现继承关系。每个对象都有一个原型属性__proto__&#xff0c;它指向它…

hypery 十一、命令行

教程&#xff1a;Hyperf symfony/console composer地址&#xff1a; symfony/console - Packagist github地址&#xff1a;GitHub - symfony/console: Eases the creation of beautiful and testable command line interfaces hyperf/command github地址:https://github.com/…

Ubuntu18.04未安装Qt报qt.qpa.plugin could not load the Qt platform plugin xcb问题的解决方法

在Ubuntu 18.04开发机上安装了Qt 5.14.2&#xff0c;当将其可执行程序拷贝到另一台未安装Qt的Ubuntu 18.04上报错&#xff1a;拷贝可执行程序前&#xff0c;使用ldd将此执行程序依赖的动态库也一起拷贝过去&#xff0c;包括Qt5.14.2/5.14.2/gcc_64/plugins目录系的platforms目录…

【UE5 多人联机教程】05-生成玩家

步骤 1. 新建一个游戏模式基础 命名为“GM_Lobby” 2. 新建一个玩家控制器&#xff0c;命名为“PC_Lobby” 3. 新建一个游戏状态基础 命名为“GS_Lobby” 重新设置游戏模式重载、玩家控制器类、游戏状态类 4. 新建一个控件蓝图&#xff0c;命名为“UMG_Lobby” 打开“UMG_Lobb…