spark集群配置以及java操作spark小demo

  • spark
    • 安装
    • 配置
    • 使用java来操作spark

spark

安装

tar -zxvf spark-2.4.0-bin-hadoop2.7.tgz
rm spark-2.4.0-bin-hadoop2.7.tgz
mv spark-2.4.0-bin-hadoop2.7 sparksudo vim /etc/profileexport SPARK_HOME=/usr/local/stormexport PATH=$PATH:$SPARK_HOME/binsource /etc/profile准备 master worker1 worker2 worker3 这四台机器首先确保你的Hadoop集群能够正常运行worker1 worker2 worker3为DataNode, master为NameNode
具体配置参照我的博客https://www.cnblogs.com/ye-hcj/p/10192857.html

配置

  1. spark-env.sh

    进入spark的conf目录下,cp spark-env.sh.template spark-env.shsudo vim spark-env.sh输入如下配置export JAVA_HOME=/usr/local/jdk/jdk-11.0.1export SCALA_HOME=/usr/local/scala/scalaexport HADOOP_HOME=/usr/local/hadoop/hadoop-3.1.1export SPARK_HOME=/usr/local/spark/sparkexport HADOOP_CONF_DIR=/usr/local/hadoop/hadoop-3.1.1/etc/hadoopexport SPARK_MASTER_HOST=masterexport SPARK_WORKER_MEMORY=1gexport SPARK_WORKER_CORES=1
  2. slaves

    进入spark的conf目录下,cp slaves.template slavessudo vim slaves输入如下配置    master worker1 worker2 worker3
  3. 启动

    在master中运行 sbin/start-all.sh 即可访问http://master:8080/即可看到spark的ui

使用java来操作spark

写个小demo,用来分析10万个数据中男女人数

  1. 模拟数据的java代码

    // 模拟数据
    // 10万个人当中,统计青年男性和青年女性的比例,看看男女比例是否均衡
    FileOutputStream f = null;
    ThreadLocalRandom random = ThreadLocalRandom.current();
    String str = "";
    int count = 0;
    try {f = new FileOutputStream("C:\\Users\\26401\\Desktop\\data.txt", true); for(;count<100000;count++) {str = count + " " + random.nextInt(18, 28) + " " + (random.nextBoolean()?'M':'F');f.write((str + "\r\n").getBytes());}} catch (Exception e) {e.printStackTrace();
    } finally {try {if(f != null) f.close();} catch (IOException e) {e.printStackTrace();}
    }
  2. 依赖

    <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"><modelVersion>4.0.0</modelVersion><groupId>test</groupId><artifactId>test</artifactId><version>1.0.0</version><name>test</name><description>Test project for spring boot mybatis</description><packaging>jar</packaging><properties><project.build.sourceEncoding>UTF-8</project.build.sourceEncoding><maven.compiler.encoding>UTF-8</maven.compiler.encoding><java.version>1.8</java.version><maven.compiler.source>1.8</maven.compiler.source><maven.compiler.target>1.8</maven.compiler.target></properties> <dependencies><dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_2.12</artifactId><version>2.4.0</version></dependency><dependency><groupId>org.slf4j</groupId><artifactId>slf4j-api</artifactId><version>1.7.25</version></dependency><dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>3.8.1</version></dependency></dependencies><build><plugins><plugin><groupId>org.apache.maven.plugins</groupId><artifactId>maven-jar-plugin</artifactId><configuration><archive><manifest><addClasspath>true</addClasspath><useUniqueVersions>false</useUniqueVersions><classpathPrefix>lib/</classpathPrefix></manifest></archive></configuration></plugin></plugins></build>
    </project>
  3. java代码

    package test;import java.io.Serializable;import org.apache.spark.SparkConf;
    import org.apache.spark.api.java.JavaRDD;
    import org.apache.spark.api.java.JavaSparkContext;
    import org.apache.spark.api.java.function.Function;
    import org.slf4j.Logger;
    import org.slf4j.LoggerFactory;public class App implements Serializable
    {private static final long serialVersionUID = -7114915627898482737L;public static void main(String[] args) throws Exception {Logger logger=LoggerFactory.getLogger(App.class);SparkConf sparkConf = new SparkConf();sparkConf.setMaster("spark://master:7077");sparkConf.set("spark.submit.deployMode", "cluster");sparkConf.setAppName("FirstTest");JavaSparkContext sc = new JavaSparkContext(sparkConf);JavaRDD<String> file = sc.textFile("hdfs://master:9000/data.txt");JavaRDD<String> male = file.filter(new Function<String, Boolean>() {private static final long serialVersionUID = 1L;@Overridepublic Boolean call(String s) throws Exception {logger.info(s);return s.contains("M");}});logger.info("**************************************");logger.info(male.count()+""); // 49991logger.info("**************************************");sc.close();// 其他的api请自行查阅,很简单,不想看,可以自己瞎点}
    }
  4. 运行

    1. 将生成的测试数据data.txt上传至hdfs
    2. 将打包的jar上传到master机器
    3. 运行 bin/spark-submit --master spark://master:7077 --class test.App test-1.0.0.jar 
    4. 进入spark的ui界面可以清楚的看到打印的消息

转载于:https://www.cnblogs.com/ye-hcj/p/10280114.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/387569.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++笔记(3)——string.h相关的一些小知识

strlen() 用于得到字符数组中第一个\0前的字符的个数&#xff0c;格式如下&#xff1a; strlen(数组); 例子&#xff1a; #include <stdio.h> #include <string.h>int main(){char str[10];gets(str);int len strlen(str);printf("%d\n", len);return 0…

最近发现系统rabbitmq丢消息比较严重,于是想了些方案来查找原因,给将消息发送方式添加确认机制。 我们在本地模拟了wms发送打标消息的场景. 1. 有事务 2. 先发点对点队列, 再发订

最近发现系统rabbitmq丢消息比较严重&#xff0c;于是想了些方案来查找原因&#xff0c;给将消息发送方式添加确认机制。 我们在本地模拟了wms发送打标消息的场景. 1. 有事务 2. 先发点对点队列, 再发订阅队列 3. 批量发送 4. 在生产环境与测试环境的RabbitMQ都进行了测试 …

uoj#388. 【UNR #3】配对树(线段树合并)

传送门 先考虑一个贪心&#xff0c;对于一条边来说&#xff0c;如果当前这个序列中在它的子树中的元素个数为奇数个&#xff0c;那么这条边就会被一组匹配经过&#xff0c;否则就不会 考虑反证法&#xff0c;如果在这条边两边的元素个数都是偶数&#xff0c;那么至少有两组匹配…

一道Js判断对象是否相等面试题引发的故事

话说&#xff0c;说什么呢&#xff0c;先看下题吧还是、 function checkName(data) { if (data { name: LIMING }) { console.log("one"); 复制代码 } else if (data { name: LIMING }) { console.log(two"); 复制代码 } else { console.log("three&quo…

序列化

什么是序列化&#xff1f;为什么要实现序列化&#xff1f;有什么作用&#xff1f; 序列化就是把具体的对象转化成二进制的字节码文件进行存储或网络传输。反过来就是反序列化。 将要存储或网络传输的对象必须实现序列化才可以。 如果一个类已经实现了序列…

搭建Hive平台

http://www.cnblogs.com/gpcuster/archive/2010/02/24/1672635.html Hive是一个基于Hadoop的数据仓库平台。通过hive&#xff0c;我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言&#xff1a;HQL&#xff0c;能够将用户编写的QL转化为相应的Mapreduce程序基于…

Java语言与sikuli配合

很早之前写过一篇介绍sikuli的文章。本文简单介绍如何在java中使用sikuli进自动化测试。 图形脚本语言sikuli sikuli IDE可以完成常见的单击、右击、移动到、拖动等鼠标操作&#xff0c;java引用sikuli-script.jar同样可以执行这些常见的鼠标操作&#xff0c;因此即可方便的编写…

列表生成式,生成器表达式,模块的使用

三元表达式 无论条件成立与否都要返回一个值, 用于简化仅有一个判断的函数(或代码块)递归 递归有循环调用的次数限制,调用函数时,函数相关数据要入栈,而栈区是有限的 二分查找法匿名函数 仅能在定义时使用一次,定义完了就没了 参数没有括号,不能有return,会自…

C#怎么用代码模拟手机去访问手机网站抓取数据

WebClient client new WebClient ();client.Headers.Add ("user-agent", "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; .NET CLR 1.0.3705;)");更改user-agent为手机浏览器的。模拟谷歌Android&#xff1a;user-agent"Mozilla/5.0 (Linux; …

angular6 iframe应用

问题一、 iframe如何自适应屏幕高度 解决思路&#xff1a;通过设置iframe外层父元素高度等于window高度&#xff0c;再相对于父元素定位iframe元素&#xff1b;案例如下&#xff1a; 第一步: 模板文件中使用iframe // demo.component.html <div style"position: relati…

jquery下载地址:https://code.jquery.com/jquery/ 影响范围: 版本低于1.7的jQuery过滤用户输入数据所使用的正则表达式存在缺陷,可能导致LOCA

jquery下载地址&#xff1a;https://code.jquery.com/jquery/ 影响范围&#xff1a; 版本低于1.7的jQuery过滤用户输入数据所使用的正则表达式存在缺陷&#xff0c;可能导致LOCATION.HASH跨站漏洞 已测试成功版本&#xff1a; jquery-1.6.min.js&#xff0c;jquery-1.6.1.min…

Myeclipse常用快捷键

2019独角兽企业重金招聘Python工程师标准>>> Ctrl1 快速修复 CtrlD: 删除当前行 CtrlQ 定位到最后编辑的地方 CtrlL 定位在某行 CtrlO 快速显示 OutLine CtrlT 快速显示当前类的继承结构 CtrlW 关闭当前Editer CtrlK 快速定位到下一个 CtrlE 快速显示当前Edi…

数字三角形

问题描述 &#xff08;图&#xff13;.&#xff11;&#xff0d;&#xff11;&#xff09;示出了一个数字三角形。 请编一个程序计算从顶至底的某处的一条路径&#xff0c;使该路径所经过的数字的总和最大。●每一步可沿左斜线向下或右斜线向下走&#xff1b;●1&#xff1c;三…

版本低于1.7的jQuery过滤用户输入数据所使用的正则表达式存在缺陷

jquery下载地址&#xff1a;https://code.jquery.com/jquery/ 影响范围&#xff1a; 版本低于1.7的jQuery过滤用户输入数据所使用的正则表达式存在缺陷&#xff0c;可能导致LOCATION.HASH跨站漏洞 已测试成功版本&#xff1a; jquery-1.6.min.js&#xff0c;jquery-1.6.1.min.…

RabbitMQ学习总结(6)——消息的路由分发机制详解

2019独角兽企业重金招聘Python工程师标准>>> 一、Routing(路由) (using the Java client)在前面的学习中&#xff0c;构建了一个简单的日志记录系统&#xff0c;能够广播所有的日志给多个接收者&#xff0c;在该部分学习中&#xff0c;将添加一个新的特点&#xff0…

Kaggle爆文:一个框架解决几乎所有机器学习问题

上周一个叫 Abhishek Thakur 的数据科学家&#xff0c;在他的 Linkedin 发表了一篇文章 Approaching (Almost) Any Machine Learning Problem&#xff0c;介绍他建立的一个自动的机器学习框架&#xff0c;几乎可以解决任何机器学习问题&#xff0c;项目很快也会发布出来。 这篇…

C# HttpWebRequest GET HTTP HTTPS 请求

这个需求来自于我最近练手的一个项目&#xff0c;在项目中我需要将一些自己发表的和收藏整理的网文集中到一个地方存放&#xff0c;如果全部采用手工操作工作量大而且繁琐&#xff0c;因此周公决定利用C#来实现。在很多地方都需要验证用户身份才可以进行下一步操作&#xff0c;…

HttpStatusCode

https://docs.microsoft.com/en-us/dotnet/api/system.net.httpstatuscode?viewnetframework-4.7.2 422 UnprocessableEntity What HTTP status response code should I use if the request is missing a required parameter? Status 422 seems most appropiate based on the…

numpy 和tensorflow 中的乘法

矩阵乘法&#xff1a;tf.matmul() np.dot() &#xff0c; 逐元素乘法&#xff1a;tf.multiply() np.multiply()转载于:https://www.cnblogs.com/lizhiqing/p/10307760.html

启用了不安全的HTTP方法

安全风险&#xff1a;可能会在Web 服务器上上载、修改或删除Web 页面、脚本和文件。可能原因&#xff1a;Web 服务器或应用程序服务器是以不安全的方式配置的。修订建议&#xff1a;如果服务器不需要支持WebDAV&#xff0c;请务必禁用它&#xff0c;或禁止不必要的HTTP 方法。方…