Hadoop学习之整体介绍及环境搭建

                              Hadoop学习之整体介绍及环境搭建

1 大数据概述

1.1 什么是大数据

数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加 工的的原始素材。

大数据:传统处理方式无法解决的不仅大而且复杂的数据集的存储和计算。

1.2 大数据的四个特性

(1)容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息

(2)种类(Variety):数据类型的多样性,包括文本,图片,视频,音频等

(3)速度(Velocity):指获得数据的速度以及处理数据的速度

(4)价值(Value):合理运用大数据,以低成本创造高价值

容量大,种类多,速度快(产生数据的速度快,要求时延小 ),价值高( 整体价值,单条记录没有价值 )

1.3 大数据价值应用

将各个小型数据集合并后进行分析可得出许多额外的信息和数据关系性,可用来政治经济国庆调控、察觉 商业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定即时交通路况等。

2 Hadoop概述

2.1 什么是Hadoop

大数据存储和计算的一整套解决方案,软件平台。

Hadoop 提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分 布式处理

2.2 Hadoop的核心组件

Common(基础设施):工具包,RPC 框架等

HDFS(Hadoop Distributed File System): 分布式的文件系统(海量数据的存储)

MapReduce: 分布式的计算框架(海量数据离线运算)

Yarn(Yet Another Resources Negotiato): 分布式资源调度系统(2.x后才有)

2.3 Hadoop的发行版本

apache hadoop: 2008年,初学者入门,简单易入手

cloudera hadoop: 2009年,企业中使用 CDH,性能强

hortonworks hadoop: 2011年,文档全面

2.4 Hadoop的相关组件

(1)Hive:基于大数据技术的SQL数据仓库工具,可以将结构化的数据文件映射为一张数据库   表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。

(2)HBase:基于 Hadoop 的列式分布式 NoSQL 数据库

(3)Zookeeper:分布式协调服务基础组件

(4)Sqoop:数据导入导出工具

(5)Ambari:创建、管理、监视 Hadoop 的集群,是为了让 Hadoop 以及相关的大数据软件更容易使用的一个web工具。

(6)Flume:日志数据采集框架

(7)Oozie/Azkaban:工作流调度引擎

(8)Mahout:基于 MapReduce/Flink/Spark 等分布式运算框架的机器学习算法库

2.5 分布式和集群的区别

分布式:不同的业务模块部署在不同的服务器上或者同一个业务模块分拆多个子业务,部署在不同的服务器上,解决高并发的问题。

集群:同一个业务部署在多台机器上,提高系统可用性

分布式的主要工作是分解任务,将职能拆解;集群主要的使用场景是为了分担请求的压力,也就是在几个服务器上部署相同的应用程序,来分担客户端请求,主要是简单加机器解决问题,对于问题本身不做任何分解。

分布式处理里必然包含任务分解与结果归并。分布式中的某个子任务节点,可能由一个集群来代替;集群中任一节点,都是做一个完整的任务。集群和分布式都是由多个节点组成,但是集群之间的通信协调基本不需要;而分布式各个节点的通信协调必不可少。

将一套系统拆分成不同子系统部署在不同服务器上(分布式),然后部署多个相同的子系统在不同的服务器上(集群),部署在不同服务器上的同一个子系统应做负载均衡。 

3 Hadoop完全分布式集群搭建

3.1 准备工作

(1)准备多个节点(比如3台)

(2)修改ip地址,静态ip地址

(3)修改主机名称和主机映射

(4)系统启动级别

(5)防火墙和selinux关闭:selinux:linux的安全管理策略文件位置/etc/selinux/config 

(6)同步时间:ntpdate ntp1.aliyun.com

(7)jdk安装

(8)ssh免密登录

3.2 完全分布式集群搭建

(1)下载hadoop软件包:http://hadoop.apache.org/或http://archive/apache.org/dist/

(2)上传到服务器:put -r hadoop.tar.gz

(3)解压:

(4)进程规划:例子如下

bigdata01bigdata02bigdata03
Namenode  
DataNodeDataNodeDataNode
  SecondaryNameNode
 ResourceManager 
NodeManagerNodeManagerNodeManager

(5)配置

①hadoop-env.sh

#配置整个hadoop的环境,hadoop进程是jvm进程,配置jdk的环境变量

export JAVA_HOME=jdk的安装目录

②core-site.xml

默认的文件系统,默认(file:///本地文件系统),

hdfs://ip:port        hdfs集群的入口地址(namenode:客户端的请求和响应)

这个配置说明:①使用分布式的文件系统

②namenode所在的节点为bigdata

③hdfs集群的访问路径: hdfs://hdp01:9000

        <property>

                <name>fs.defaultFs</name>

                <value>hdfs://bigdata01:9000</value>

        </property>

 

临时文件的存储目录

        <property>

                <name>hadoop.tmp.dir</name>

                <value>/home/refuel/opt/module/hadoop-2.7.7/data</value>

        </property>

③hdfs-site.xml

dfs.replication:副本数(默认3个)

dfs.blocksize:每个块的大小(1.x默认64M   2.x默认128M)

 

namenode的元数据存储的目录

        <property>

                <name>dfs.namenode.name.dir</name>

                <value>/home/refuel/opt/module/hadoop-2.7.7/data/name</value>

        </property>

datanode的lock信息存储的目录

        <property>

                <name>dfs.datanode.data.dir</name>

                <value>/home/refuel/opt/module/hadoop-2.7.7/data/data</value>

        </property>

secondarynamenode的节点配置

        <property>

                <name>dfs.secondary.http.address</name>

                <value>bigdata03:50090</value>

        </property>

④mapred.site.xml 

将mapred-site.xml.template 复制一份并重命名为mapred-site.xml

mapreduce的作业运行平台

        <property>

                <name>mapreduce.framework.name</name>

                <value>yarn</value>

        </property>

⑤yarn-site.xml

配置Resourcemanager的主机名

        <property>

                <name>yarn.resourcemanager.hostname</name>

                <value>bigdata02</value>

        </property>

NodeManager上运行的附属服务。需配置成mapreduce_shuffle,才可运行MapReduce程序

        <property>

                <name>yarn.nodemanager.aux-services</name>

                <value>mapreduce_shuffle</value>

        </property>

⑥slaves

从节点的列表

bigdata01

bigdata02

bigdata03

⑦环境变量

(1)/etc/profile


(2)当前用户:
          ~/.bashrc
           ~/.bash_profile
  
         export HADOOP_HOME=/home/hadoop/hadoop-2.7.7
         export PATH=$PATH:$HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

         source .bash_profile

 

⑧发送到其他节点

⑨hdfs集群(namenode)格式化

hdfs namenode -format (除第一次格式化外,其他次格式化需要将logs文件及相关的data文件删除)

⑩启动集群

1.逐个进程启动
  hadoop-daemon.sh start/stop namenode/datanode/secondarynamenode
  yarn-daemon.sh start/stop ResourceManager/NodeManager
2.整个集群启动(涉及到通信,ssh免密登录)
  start-dfs.sh/stop-dfs.sh
  start-yarn.sh(必须在rm节点启动)/stop-yarn.sh
3.全部启动
  start-all.sh/stop-all.sh

 

 

 

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/473872.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

05.序列模型 W2.自然语言处理与词嵌入

文章目录1. 词汇表征2. 使用词嵌入3. 词嵌入的特性4. 嵌入矩阵5. 学习词嵌入6. Word2Vec7. 负采样8. GloVe 词向量9. 情感分类10. 词嵌入除偏作业参考&#xff1a;吴恩达视频课深度学习笔记自然语言处理与词嵌入 Natural Language Processing and Word Embeddings 1. 词汇表征…

sql获取总列数

Select count(*) from syscolumns where object_name(id)表名可以获取表的列数转载于:https://www.cnblogs.com/haoqi/p/3388171.html

6.MongoDB备份与恢复

备份 语法 mongodump -h dbhost -d dbname -o dbdirectory -h&#xff1a;服务器地址&#xff0c;也可以指定端口号 -d&#xff1a;需要备份的数据库名称 -o&#xff1a;备份的数据存放位置&#xff0c;此目录中存放着备份出来的数据 例1 sudo mkdir test1bak sudo mongodump…

Hadoop学习之HDFS

Hadoop学习之HDFS 1 HDFS相关概念 1.1 设计思路 分散存储&#xff0c;冗余备份。 分散存储&#xff1a;大文件被切割成小文件&#xff0c;使用分而治之的思想让多个服务器对同一个文件进行联合管理&#xff1b; 冗余备份&#xff1a;每个小文件做冗余备份&#xff0c;并且…

LeetCode 799. 香槟塔(DP动态规划)

文章目录1. 题目2. 解题1. 题目 我们把玻璃杯摆成金字塔的形状&#xff0c;其中第一层有1个玻璃杯&#xff0c;第二层有2个&#xff0c;依次类推到第100层&#xff0c;每个玻璃杯(250ml)将盛有香槟。 从顶层的第一个玻璃杯开始倾倒一些香槟&#xff0c;当顶层的杯子满了&…

C语言进行CGI程序设计

一、CGI概述CGI(公用网关接口)规定了Web服务器调用其他可执行程序(CGI程序)的接口协议标准。Web服务器通过调用CGI程序实现和Web浏览器的交互,也就是CGI程序接受Web浏览器发送给Web服务器的信息,进行处理,将响应结果再回送给Web服务器及Web浏览器。CGI程序一般完成Web网页中表单…

7.MongoDB与python交互

引入模块pymongo from pymongoimport * 主要提供如下对象用于进行交互 MongoClient对象&#xff1a;用于与MongoDB服务器建立连接 DataBase对象&#xff1a;对应着MongoDB中的数据库 Collection对象&#xff1a;对应着MongoDB中的集合 Cursor对象&#xff1a;查询方法find()返…

天池在线编程 2020国庆八天乐 - 7 进制

文章目录1. 题目2. 解题1. 题目 https://tianchi.aliyun.com/oj/118289365933779217/122647324212270017 Given an integer, return its base 7 string representation. 输入范围为[-1e7, 1e7] 。 示例 样例 1: 输入: num 100 输出: 202样例 2: 输入: num -7 输出: -102.…

Hadoop学习之MapReduce

Hadoop学习之MapReduce 目录 Hadoop学习之MapReduce 1 MapReduce简介 1.1 什么是MapReduce 1.2 MapReduce的作用 1.3 MapReduce的运行方式 2 MapReduce的运行机制 2.1 相关进程 2.2 MapReduce的编程套路 2.3 MapTask的并行度 2.4 切片及其源码解读 2.5 ReduceTask的…

四款常见数据库比较同步软件汇总

前言&#xff1a; 目前&#xff0c;数据库技术在各行各业的应用正在逐步加深&#xff0c;在这些应用中普遍采用分布式系统结构。而数据库同步技术是分布式数据库系统中应用非常广泛的一种技术。分 布式数据库系统由多个通过网络连接的数据库组成&#xff0c;它们通常有主从服务…

8.账户管理(非数据库管理人员理解篇

超级管理员 为了更加安全的访问 mongodb,需要访问者提供用户名和密码,于是需要在mongodb 中创建用户 采用了角色-用户-数据库的安全管理方式 常用的的系统角色有: root: 只在 admin 数据中可使用,超级账户,超级权限 Read: 允许用户读取指定的数据库 readWrite: 允许用户读写指…

Hadoop学习之yarn

Hadoop学习之YARN 1 YARN简介 1.1 概述 YARN &#xff08;Yet Another Resource Negotiator&#xff09;是一个资源调度平台&#xff0c;负责为运算程序提供服务器运算资源&#xff0c;相当于一个分布式的操作系统平台&#xff0c;而 MapReduce 等运算程序则相当于运行于操作…

poj1308

#include<stdio.h>#include<string.h>//判断是否有环&#xff0c;判断是否是一个根节点。判断空树的情况#define N 1000000int pre[N10],dis[N10],degree[N10];int find(int n) {return pre[n]npre[n]?n:find(pre[n]);}int main() {int a,b,cnt,flag,f1,f2,i,min,…

天池在线编程 2020国庆八天乐 - 8. 分糖果

文章目录1. 题目2. 解题1. 题目 https://tianchi.aliyun.com/oj/118289365933779217/122647324212270016 描述&#xff1a; 给定长度为偶数的整数数组&#xff0c;该数组中不同的数字代表不同种类的糖果&#xff0c; 每个数字表示一种糖果。 您需要将这些糖果平均分配给弟弟和…

1.Redis简介与基本命令

Redis是一个高性能的key-value存储系统。和Memcached类似&#xff0c;它支持存储的value类型相对更多&#xff0c;包括string(字符串)、list(链表)、set(集合)、zset(sortedset--有序集合)和hash&#xff08;哈希类型&#xff09;。 配置 绑定ip&#xff1a;如果需要远程访问&…

Hive基础知识

Hive基础知识 1 Hive相关概念 1.1 Hive是什么 Hive是基于 Hadoop 的一个数据仓库工具&#xff0c;可以将结构化的数据映射为一张数据库表&#xff0c;并提供 HQL(Hive SQL)查询功能&#xff0c;最终底层将HQL语句转换为MapReduce任务的&#xff0c;底层数据是存储在 HDFS 上…

【转】【C#.NET】ASP.NET状态管理之一:Cookie

【C#.NET】ASP.NET状态管理之一:Cookie 状态管理是你对同一页或不同页的多个请求维护状态和页信息的过程。与所有基于 HTTP 的技术一样&#xff0c;Web 窗体页是无状态的&#xff0c;这意味着它们不自动指示序列中的请求是否全部来自相同的客户端&#xff0c;或者单个浏览器实例…

2.Redis数据操作

redis是key-value的数据结构&#xff0c;每条数据都是一个键值对 键的类型是字符串 注意&#xff1a;键不能重复 值的类型分为五种&#xff1a; 字符串string 哈希hash 列表list 集合set 有序集合zset string&#xff08;主要 string是redis最基本的类型 最大能存储512MB数…

天池在线编程 2020国庆八天乐 - 6. 山谷序列(DP)

文章目录1. 题目2. 解题1. 题目 https://tianchi.aliyun.com/oj/118289365933779217/122647324212270018 描述&#xff1a; 给你一个长度为 n 的序列&#xff0c;在他的子序列中让你找一个山谷序列&#xff0c;山谷序列定义为&#xff1a; 序列的长度为偶数。假设子序列的长…

向量点积(Dot Product)

http://www.evernote.com/shard/s146/sh/e0d95bd1-68df-49d9-87c8-e21647d94e18/4d7af393bd986fd0c462ebd138f494b1转载于:https://www.cnblogs.com/dyfzwj/p/3408588.html