Hadoop系列(三)MapReduce Job的几种提交运行模式

Job执行可以分为本地执行或者集群执行。hadoop集群安装部署在远程centos系统中。使用经典的WordCount代码为例。

1. 本地执行模式(本地为MacOS环境),无需启动远程的hadoop集群,本地job会提交给本地执行器LocalJobRunner去执行。

1)输入输出数据存放在本地路径下:

首先,MapReduce代码如下:

  • Mapper
package com.nasuf.hadoop.mr;import java.io.IOException;import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;public class WCMapper extends Mapper<LongWritable, Text, Text, LongWritable> {@Overrideprotected void map(LongWritable key, Text value, Context context)throws IOException, InterruptedException {String line = value.toString();String[] words = StringUtils.split(line, " ");for (String word: words) {context.write(new Text(word), new LongWritable(1));}}}
  • Reducer
package com.nasuf.hadoop.mr;import java.io.IOException;import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;public class WCReducer extends Reducer<Text, LongWritable, Text, LongWritable>{@Overrideprotected void reduce(Text key, Iterable<LongWritable> values, Context context) throws IOException, InterruptedException {long count = 0;for (LongWritable value: values) {count += value.get();}context.write(key, new LongWritable(count));}}
  • Runner
package com.nasuf.hadoop.mr;import java.io.IOException;import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;public class WCRunner {public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {Configuration conf = new Configuration();Job job = Job.getInstance(conf);// 设置整个job所用的类在哪个jar包job.setJarByClass(WCRunner.class);// 本job实用的mapper和reducer的类job.setMapperClass(WCMapper.class);job.setReducerClass(WCReducer.class);// 指定reducer的输出数据kv类型(若不指定下面mapper的输出类型,此处可以同时表明mapper和reducer的输出类型)job.setOutputKeyClass(Text.class);job.setOutputValueClass(LongWritable.class);// 指定mapper的输出数据kv类型job.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(LongWritable.class);// 指定原始数据存放位置FileInputFormat.setInputPaths(job, new Path("/Users/nasuf/Desktop/wc/srcdata"));// 处理结果的输出数据存放路径FileOutputFormat.setOutputPath(job, new Path("/Users/nasuf/Desktop/wc/output"));// 将job提交给集群运行job.waitForCompletion(true);}}

在本地模式中,可以将测试数据存放在"/Users/nasuf/Desktop/wc/srcdata"路径下,注意输出路径不能是已经存在的路径,不然会抛出异常。
2) 输入输出数据存放在hdfs中,需要启动远程的hdfs(无需启动yarn)
修改Runner代码如下:

        // 指定原始数据存放位置FileInputFormat.setInputPaths(job, new Path("hdfs://hdcluster01:9000/wc/srcdata"));// 处理结果的输出数据存放路径FileOutputFormat.setOutputPath(job, new Path("hdfs://hdcluster01:9000/wc/output1"));

如果出现如下错误:

org.apache.hadoop.security.AccessControlException: Permission denied: user=nasuf, access=WRITE, inode="/wc":parallels:supergroup:drwxr-xr-x

显然是权限问题。hadoop的用户目录是parallels,权限是rwxr-xr-x,而本地操作使用的用户是nasuf。解决方法如下:在vm启动参数中加入如下参数:-DHADOOP_USER_NAME=parallels即可。

2. 集群执行模式(首先需要启动yarn,job会提交到yarn框架中去执行。访问http://hdcluster01:8088可以查看job执行状态。)

1)使用命令直接执行jar

 hadoop jar wc.jar com.nasuf.hadoop.mr.WCRunner

查看http://hdcluster01:8088中job执行状态

clipboard.png

2) 通过main方法直接在本地提交job到yarn集群中执行
将$HADOOP_HOME/etc/hadoop/mapred-site.xml 和 yarn-site.xml拷贝到工程的classpath下,直接执行上述代码,即可提交job到yarn集群中执行。
或者直接在代码中配置如下参数,与拷贝上述两个配置文件相同的作用:

conf.set("mapreduce.framework.name", "yarn");
conf.set("yarn.resourcemanager.hostname", "hdcluster01");
conf.set("yarn.nodemanager.aux-services", "mapreduce_shuffle");

如果出现如下错误信息:

2018-08-26 10:25:37,544 INFO  [main] mapreduce.Job (Job.java:monitorAndPrintJob(1375)) - Job job_1535213323614_0010 failed with state FAILED due to: Application application_1535213323614_0010 failed 2 times due to AM Container for appattempt_1535213323614_0010_000002 exited with  exitCode: -1000 due to: File file:/tmp/hadoop-yarn/staging/nasuf/.staging/job_1535213323614_0010/job.jar does not exist
.Failing this attempt.. Failing the application.

可以将core-site.xml配置文件同时拷贝到classpath中,或者同样配置如下参数:

conf.set("hadoop.tmp.dir", "/home/parallels/app/hadoop-2.4.1/data/");

即可解决问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/253670.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

常见视频接口介绍,VGA,YPbPr,DVI,HDMI,DisplayPort

1&#xff0c;VGA(D-SUB) 这种是显示器最常见的&#xff0c;用了很多年&#xff0c;色域空间是RGB&#xff0c;也就是红绿蓝&#xff0c;模拟信号&#xff0c;无音频 插头是15针的&#xff0c;实际所需的最小针数应该是5针&#xff0c;也就是RGB三色信号&#xff0c;水平…

芯片面积估计方法

一、概念 芯片面积的主要涵盖部分分为三部分 IO&#xff1a;芯片的信号及电源pad等Standard cell : 实现芯片的功能逻辑Macro block &#xff1a;第三方IP( PLL DAC POR Memory .etc )芯片面积估计就是通过目标工艺的库信息&#xff0c;设计的spec、以往设计的信息及&#xff…

WordPress开发之WP Custom Register Login插件试用

简介 WP Custom Register Login可以为你的WordPress网站前台增加注册、登录、找回密码的功能&#xff1b;你可以通过简码在任何页面上调用。此外&#xff0c;该插件还支持设置自动通过用户的电子邮件验证新帐户激活&#xff0c;自带算术验证码&#xff0c;有效防护垃圾注册。对…

Java数据类型(基本数据类型)学习

Java数据类型&#xff08;基本数据类型&#xff09;学习 与其他语言一样&#xff0c;Java编程同样存在&#xff0c;比如int a&#xff0c;float b等。在学习变量之前我就必须先了解Java的数据类型啦。 Java的数据类型包括基本数据类型和引用数据类型。具体如下&#xff1a; 各数…

SLVS-EC接口学习

SLVS summarize 一、概述 SLVS-EC高速串行接口技术&#xff0c;在CIS和DSP&#xff08;数字信号处理器&#xff09;之间实现了高帧率的宽带像素数据传输。 SLVS-EC引入了一个优化的数据包格式和控制协议&#xff0c;几乎没有冗余&#xff0c;而且结构简单&#xff0c;仅由两层…

关于Unity中NGUI的Pivot和锚点

Pivot 1.创建一个Sprite类型的Sprite1节点&#xff0c;关联一个图集和一张贴图&#xff0c;用图中的六个按钮调整这个贴图的Pivot点&#xff0c;一共有八个点可以选择 2.再创建一个Sprite类型的Sprite2节点&#xff0c;作为Sprite1节点的子节点&#xff0c;关联一个图集和一张贴…

PrimeTime指南——概述和基本流程

PrimeTime&#xff08;PT&#xff09;是Synopsys的sign-off quality的静态时序分析工具。PrimeTime可以集成于逻辑综合和物理综合的流程&#xff0c;让设计者分析并解决复杂的时序问题&#xff0c;并提高时序收敛的速度。 一、概述 PT最大的两个特点是&#xff1a; 基于时序路…

Android开发——RecyclerView特性以及基本使用方法(二)

0. 前言随着Android的发展&#xff0c;虽然ListView依旧重要&#xff0c;但RecyclerView确实越来越多的被大家使用。但显然并不能说RecyclerView就一定优于ListView&#xff0c;而是应该根据不同的需求选择最合适的进行使用。本篇将介绍我们为什么要使用RecyclerView&#xff…

pycharm中使用scrapy命命

2019独角兽企业重金招聘Python工程师标准>>> 这篇博客写的不错&#xff0c;亲测 https://blog.csdn.net/MAOZEXIJR/article/details/80678133 转载于:https://my.oschina.net/u/2511906/blog/1934993

PrimeTime指南——合理设置约束

完整的STA需要满足以下两点&#xff1a; 完整的设计约束&#xff08;完整并不意味着正确&#xff09;运行所有需要的时序检查可以用以下两条命令来进行完整性的检查&#xff1a; check_timing // 检查是否缺少了约束条件 report_analysis_cove…

tablayout支持改变选中文字大小,支持左右滑动,支持viewpager,支持三角可移动指示器...

TabLayout [简书地址] (https://www.jianshu.com/p/2c3f868266e8) 基于大神的FlycoTabLayout [传送地址和基本用法](https://github.com/H07000223/FlycoTabLayout) 用法和属性和这个库一样 效果图如下 主要添加一个属性 tl_text_select_size 控制选中文字大小 看代码截图 然后…

Design Compiler指南——概述和基本流程

综合是前端模块设计中的重要步骤之一&#xff0c;综合的过程是将行为描述的电路、RTL级的电路转换到门级的过程&#xff1b;Design Compiler是Synopsys公司用于做电路综合的核心工具&#xff0c;它可以方便地将HDL语言描述的电路转换到基于工艺库的门级网表。本文将简单介绍综合…

linux常用网络命令

关键词&#xff1a;linux网络命令、ifconfig、route、ip、netstat、socket flag 引言&#xff1a; 想成为真正的高手&#xff0c;必须要熟练掌握linux系统的命令行操作&#xff0c;今天就回顾一下linux在网络上的常用命令相关知识&#xff0c; 另外&#xff0c;实践才是最终的方…

javaweb(三十八)——mysql事务和锁InnoDB(扩展)

MySQL/InnoDB的加锁分析&#xff0c;一直是一个比较困难的话题。我在工作过程中&#xff0c;经常会有同事咨询这方面的问题。同时&#xff0c;微博上也经常会收到MySQL锁相关的私信&#xff0c;让我帮助解决一些死锁的问题。本文&#xff0c;准备就MySQL/InnoDB的加锁问题&…

Design Compiler指南——预综合过程

预综合过程是指在综合过程之前的一些为综合作准备的步骤&#xff0c;包括Design Compiler的启动、设置各种库文件、创建启动脚本文件、读入设计文件、DC中的设计对象、各种模块的划分以及Verilog的编码等等。 一、Design Compiler的启动 目前&#xff0c;DC的启动方式有三种&a…

KAFKA介绍(分布式架构)

2019独角兽企业重金招聘Python工程师标准>>> 介绍 Kafka是一个分布式的、可分区的、可复制的消息系统。它提供了普通消息系统的功能&#xff0c;但具有自己独特的设计。这个独特的设计是什么样的呢&#xff1f; 首先让我们看几个基本的消息系统术语&#xff1a; Kaf…

Design Compiler指南——施加设计约束

Design Compiler是一个约束驱动(constrain-driven)的综合工具&#xff0c;它的结果是与设计者施加的约束条件密切相关的。在本文里&#xff0c;我们主要讨论怎样给电路施加约束条件&#xff0c;这些约束主要包括——时序和面积约束、电路的环境属性、时序和负载在不同模块之间的…

程维柳青发布道歉声明:滴滴顺风车业务将无限期下线

雷锋网(公众号&#xff1a;雷锋网)消息&#xff0c;8 月 28 日晚间&#xff0c;滴滴创始人兼 CEO 程维和滴滴总裁柳青正式发出道歉声明&#xff0c;向受害者和受害者家属道歉——这已经离本次滴滴顺风车悲剧的发生整整四天的时间。 声明表示&#xff0c;滴滴不再以规模和增长作…

Design Compiler指南——设计综合过程

在前面一章介绍完施加约束之后&#xff0c;接下来要做的工作就是将设计进行综合编译(compile)&#xff0c;本文我们将主要讨论综合编译的过程。主要分为这样几个部分&#xff1a; 优化的三个阶段及其特点编译的策略编译层次化的设计 一、优化的三个阶段 这一节我们介绍Design …

Design Compiler指南——后综合过程

本文我们着重讨论使用Design Compiler综合大型设计时要注意的一些问题&#xff0c;比如怎样调整综合方法&#xff0c;出现约束违反后怎样修正&#xff0c;怎样给不同的子模块作时序和负载预算&#xff0c;以及给整个设计在具体综合之前先作一个预估(Design Exploration)等等。 …