Hadoop入门(一)概念与单机安装

一、hadoop的概念

(1)什么是大数据

  大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具,而是涉及的业务和技术的许多领域。

 

(2)hadoop的定义

  Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

  Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

 

二、前置条件

vmvare10,ubuntu14

(1)Linux apt sources 使用aliyun镜像

sudo su
gedit /etc/apt/sources.list 注释所有内容
增加 /etc/apt/sources.list.d/00mirrors.aliyun.com.list
# aliyun
deb http://mirrors.aliyun.com/ubuntu/ trusty main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ trusty-security main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ trusty-updates main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ trusty-proposed main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ trusty-backports main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ trusty main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ trusty-security main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ trusty-updates main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ trusty-proposed main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ trusty-backports main restricted universe multiverse
#更新
apt-get update

(2)Linux 安装 ssh (server 和 client)

sudo su
apt-get install ssh
#登录检验ssh
ssh -l mk localhost
#退出ssh
exit

 

三、Hadoop单机安装(Ubuntu14版)

在用户mk,jdk和Hadoop安装路径/home/mk/soft/

1、安装配置jdk

A、在线安装:

 

B、离线安装 

1)下载jdk-7u80-linux-x64.tar.gz

  下载路径:http://www.oracle.com/technetwork/java/javase/downloads/java-archive-downloads-javase7-521261.html

  把离线包拷入到ubuntu的当前用户mk的soft文件夹下,然后执行命令安装。


2)执行命令

mkdir ~/soft
tar -zxvf jdk-7u80-linux-x64.tar.gz
mv jdk1.7.0_80/ soft/jdk1.7.0_80

 

C、配置JDK环境变量JAVA_HOME

安装完jdk后,需要配置环境变量,把java变成系统内命令
编辑/etc/profile文件来修改系统环境变量。

1)配置环境变量

执行命令(后面java.sh不要有空格,如‘java.sh ’,否则读不了配置文件)

sudo gedit /etc/profile.d/java.sh

打开/etc/profile.d/java.sh文件在文件中添加如下配置

export JAVA_HOME=/home/mk/soft/jdk1.7.0_80
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$JAVA_HOME/bin:$PATH

注意:写配置值时,export语句的内容里面不要换行

 

2)验证配置

(1)使profile文件修改配置生效
  执行命令:source /etc/profile

   或者注销再登录当前用户

       执行命令:sudo reboot


(2)验证java质量

     执行命令 :java -version

 


 

2、安装hadoop

A、下载解压hadoop安装包

下载hadoop安装包hadoop-2.6.0.tar.gz

下载路径:http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.6.0/hadoop-2.6.0.tar.gz

 

B、拷贝到hadoop用户目录中,执行命令进行安装 

 执行命令 

tar xvf hadoop-2.6.0.tar.gz
mv hadoop-2.6.0 soft/

C、修改hadoop环境变量配置

 执行命令(后面hadoop.sh不要有空格,如‘hadoop.sh ’,否则读不了配置文件)
 

sudo gedit /etc/profile.d/hadoop.sh

   hadoop.sh的内容

export HADOOP_HOME=/home/mk/soft/hadoop-2.6.0
export CLASSPATH=.:$HADOOP_HOME/share/hadoop/common/hadoop-common-2.6.0.jar:$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.6.0.jar:$HADOOP_HOME/share/hadoop/common/lib/commons-cli-1.2.jar:$CLASSPATH
export PATH=$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$PATH

  注意:写配置值时,export语句的内容里面不要换行

 D、验证配置

 1)使hadoop命令配置生效

   执行命令:source /etc/profile

  或注销再登录当前用户

  2) 验证:
  hadoop version

 

3、启动Hadoop 

A、进入到 /home/mk/soft/hadoop-2.6.0/etc/hadoop目录,查看配置文件
    执行命令: cd soft/hadoop-2.6.0/etc/hadoop/
    列出配置文件:  ls

 

B、编辑/home/mk/soft/hadoop-2.6.0/etc/hadoop/hadoop-env.sh文件,修改参数信息

执行命令:

cd soft/hadoop-2.6.0/ etc/hadoop
sudo gedit hadoop-env.sh 

修改文件里面的export JAVA_HOME=${JAVA_HOME}为

export JAVA_HOME=/home/mk/soft/jdk1.7.0_80

 C、测试Hadoop环境可用性

  执行命令 :hadoop

 

三、测试例子

题目:使用hadoop自带的hadoop-mapreduce-examples-2.6.0.jar对某目录下的文档进行单词数的统计

执行命令:

#切换到用户目录cd /home/mk/#在用户目录下创建input目录mkdir input#复制hadoop的配置文件进入inputcp $HADOOP_HOME/etc/hadoop/*.xml input/#统计input目录里面的以dfs前缀的单词,保存结果在output目录hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar grep input output 'dfs[a-z.]+'#输出output目录的结果cat output/*

结果:

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/331482.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

螺旋测微器 flash_使用测微计收集应用程序指标

螺旋测微器 flash什么是Micrometer? Micrometer是一个简单的外观,用于以供应商中立的方式收集Java应用程序中的指标。 您可以考虑使用SLF4J作为指标。 Micrometer内置了对许多不同指标后端的内置支持,包括Atlas,Datadog&#xff0…

java JNI调用C语言动态链接库(java.lang.UnsatisfiedLinkError: no yourClassName in java.library.path 异常的解决方法)

转自: http://watershitter.iteye.com/blog/477615今天花了至少3个小时跑这个java调c的动态链接库的Hello,native world的程序。 把所有犯的错误和要点总结一下! 1 java 中 c语言函数的声明 public native static void greeting(); //就像是接口声明一样…

Hadoop入门(二)集群安装

一、集群安装条件前置 在虚拟机上先准备一个机子 按用前面【安装单机hadoop】 已完成安装jdk,hadoop和ssh、网络等配置环境等。 虚拟机和操作系统 环境:ubuntu14 hadoop2.6jdk1.7ssh 虚拟机:(vmware10) 二、集群安装环境设置…

poj doubles_余数运算符在Java中用于Doubles

poj doubles我在OSU任教已近两年了,这总是令我惊讶,我从学生那里学到了多少。 例如,过去, 我让学生写一些我不理解的奇怪代码 。 在这一点上,即使经过300多个博客文章, 几个YouTube视频 ,甚至还…

面向对象与面向过程

一、面向过程编程 面向过程编程是一种以过程为中心的编程思想,分析出解决问题的步骤,然后用函数把这些步骤一步一步实现。面向过程编程,数据和对数据的操作是分离的。二、面向对象编程 面向对象编程是将事物对象化,通过对象通信来解决问题。面…

本地方法(JNI)——数值参数与返回值

【0】README 1) 本文部分文字描述 转自 core java volume 2 , 旨在理解 本地方法(JNI)——数值参数与返回值 的基础知识 ; 2) for source code, please visit https://github.com/pacosonTang/core-java…

class employe_Java 8 –集合sort()方法–按Employe对象(Id,名称,年龄)列出自定义排序示例

class employe有关在Java中对自定义对象进行排序的完整指南。 Collections.sort()方法基于Comparable或Comparator实现进行排序。 用于对Employee对象进行排序的示例自定义排序 1.简介 在本教程中,您将学习如何在java中对Custom对象进行排序…

Spring入门(一)之简介

一、Spring定义 Spring是一个开源框架,Spring是于2003 年兴起的一个轻量级的Java 开发框架,由Rod Johnson创建。 简单来说,Spring是一个分层的JavaSE/javaEE full-stack(全栈的) 轻量级开源框架。 二、Spring框架特征 (1&#xff…

本地方法(JNI)——访问域+字符串参数

【0】README 1) 本文部分文字描述 转自 core java volume 2 , 旨在理解 本地方法(JNI)——访问域字符串参数 的基础知识 ; 2) for source code, please visit https://github.com/pacosonTang/core-java…

aws上负载均衡器标组端口_AWS CloudFormation:目标组没有关联的负载均衡器

aws上负载均衡器标组端口昨天,我使用AWS CloudFormation模板最终创建了ECS服务(Fargate类型),还创建了包括应用程序负载均衡器,目标组和IAM角色的资源。 创建堆栈时,出现以下错误: 具有target…

Spring入门(二)之下载与安装

一、Spring下载 参考其他博客:http://www.cnblogs.com/yjmyzz/p/3847364.html或http://blog.csdn.net/xinzhujin/article/details/54319043 Spring下载地址为:http://repo.spring.io/release/org/springframework/spring/ 二、压缩包下的SpringFramewo…

HttpClient 4 API –获取状态代码-getStatusLine()。getStatusCode()示例

在HttpClient API中获取状态代码的快速指南。 getStatusLine()。getStatusCode()示例和相关的错误。 1.简介 在这个非常快速的教程中,我将展示如何使用HttpClient 4获取和验证HTTP响应的StatusCode。 2. Maven依赖 要…

Spring入门(三)之IoC

一、IoC定义IoC,即控制反转。开发者在使用类的实例之前,需要先创建对象的实例。但是IoC将创建实例的任务交给IoC容器,这样开发应用代码时只需要直接使用类的实例,这就是IoC。在讨论控制反转这个概念的过程中,Martin Fo…

云服务器的优点和缺点_为什么要使用云计算? 的优点和缺点

云服务器的优点和缺点在过去的几年中,云计算一直是IT界的热门话题。 像许多事物一样,当它第一次出现时,很多人都将其视为下一件大事,但是云计算确实达到了期望,并真正改变了当今信息技术业务部门的运作方式。 云计算由…

本地方法(JNI)——编码签名

【0】README 1) 本文部分文字描述 转自 core java volume 2 , 旨在理解 本地方法(JNI)——编码签名 的基础知识 ; 【1】编码签名相关 1) 混编规则:为了访问实例域和调用用 java 定义的方法&a…

Shell入门(一)之简介

一、Shell 定义 (1)Shell Shell是一个用 C 语言编写的程序,它是用户使用 Linux 的桥梁。Shell 既是一种命令语言,又是一种程序设计语言。 (2)Shell 脚本(shell script) Shell 脚本…

aws dynamodb_使用适用于Java 2的AWS开发工具包的AWS DynamoDB版本字段

aws dynamodb将任何实体上的版本属性保存到 AWS DynamoDB数据库,它只是表示已修改实体次数的数字表示。 首次创建实体时,可以将其设置为1,然后在每次更新时递增。 好处是立竿见影的-指示实体已被修改的次数,可用于审核实体。 此…

本地方法(JNI)——调用 java 方法

【0】README 1) 本文部分文字描述 转自 core java volume 2 , 旨在理解 本地方法(JNI)——调用 java 方法 的基础知识 ; 2) C语言调用java 方法,包括: 静态C 方法 和 非静态C 方法…

Shell入门(二)之变量

一、shell变量类型 shell变量一般只有两种类型:数值型与字符串型。 运行shell时,会同时存在三种变量: 1) 局部变量 局部变量在脚本或命令中定义,仅在当前shell实例中有效,其他shell启动的程序不能访问局部变量。 …

aws部署ssh_将Quarkus应用程序部署到AWS Elastic Beanstalk

aws部署sshElastic Beanstalk允许在AWS云中部署和管理应用程序,而无需了解运行这些应用程序的基础架构。 使用Elastic Beanstalk,您可以运行可处理HTTP请求的网站,Web应用程序或Web API,但也可以运行辅助应用程序以运行长任务。 …