Spark计算引擎

news/2025/10/26 12:24:35/文章来源:https://www.cnblogs.com/jifengdakuaitou/p/19166701

Spark是一个基于MapReduce思想的分布式通用计算框架,相对于MapReduce,它的升华主要体现在处理结果驻留在了内存中(RDD,即分布式内存的概念,也是将数据进行切片,计算的中间结果驻留在内存中,可以设置切片数,也可以采用默认值),可以直接与客户端交互,而不是像mapReduce那样,将结果存于hdfs,然后客户端再与hdfs交互,这样可以大大减少磁盘IO的消耗,更适用与数据挖掘和机器学习任务。

Spark支持检查点,会对任务的执行链进行记录,一旦某个任务执行失败,会对其进行重新执行,而不是对整个链路进行执行,大大提升了任务的执行效率

Spark支持Java,Python等多种语言开发,并提供了很多高级操作符,方便了不同语言之间的交互

Spark主要分为四块:

Spark Sql:类似传统的sql查询,可以直接查询hive中的数据

Spark Streaming:批处理的流式计算框架,map和reduce的各种算子就集中在这里,这是一个具体处理业务逻辑的地方

Spark GraphX:分布式的图处理框架,提供了很多图计算和图挖掘的接口

Spark MLIib:可拓展的机器学习库,包括很多常用算法,例如分类回归,聚类协同,决策树,朴素贝叶斯等

Spark的工作流程:

任务控制节点向集群管理器申请资源,启动执行器,执行器将任务分解并执行,执行结果返回控制节点

在Spark中一个应用由一个任务控制器和多个作业组成,同时作业可以切分成多个阶段,阶段可以再次切分成多个任务,这个任务就是Spark的最小逻辑执行单元了,可以利用多线程进行并行执行

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/946721.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【轨物方案】变频器物联网软硬件一站式解决方案 - 详解

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

人工智能初了解

人工智能、机器学习与深度学习基本概念: 人工智能:一系列促使机器模仿或实现人的智能的方法、技术、理论,包括计算智能、感知智能和认知智能等层次,目前人工智能还处于前两者之间,处于弱人工智能阶段,当机器完全…

173天隧道技术篇防火墙组策略ICMPDNSSMB协议出网判断C2上线解决方案

主要学习的是icmp隧道的搭建 分别的C2的icmp隧道搭建和msf隧道搭建 以及要了解C2支持的各种协议 如何判断主机支持什么协议 Icmp 使用ping ip or domain Ssh 用ssh连接 ip or domain Dns 用 nslookup domain Http 用…

Hbase分布式数据库

Hbase是谷歌对BigTable的开源实现,它是一个分布式数据库,具有容量大,数据结构不固定,列式存储,数据类型单一化,高性能的特点. Hbase能具备以上特点主要基于其表结构设计及底层的hdfs的支持,我们先说一下它的表结…

软考六

软考六Posted on 2025-10-26 12:16 心默默言 阅读(0) 评论(0) 收藏 举报1. 基本概念2. 数据库三级模式两级映像3. 数据库的分析与设计过程4. 模型5. 关系代数

MapReduce并行计算框架

MapReduce是一种编程模型,采用主从集群结构,与Hdfs类似,也是由主节点(JobTracker,在hadoop2.0中,由Yarn代替JobTracker的工作)进行任务的调度与分配,从节点(TaskTracker,在hadoop2.0中,由ApplicationMaster代…

应用安全 ---

应用安全 ---https://down.52pojie.cn/Tools/PEtools/?amp%3BO=A Scylla.v.0.9.8.rar 这有两种方法,一个插件,一个可执行, 我们用可执行,打开选择这个程序,并填入ep地址,点击dump

实用指南:3DGS 如何理解它?

实用指南:3DGS 如何理解它?pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco"…

HDFS文件系统

HDFS文件系统是hadoop生态系统的核心,主要用于分布式文件存储,它具备高可用,流式读取,文件结构简单,跨平台的特点,它的集群采用的是主从结构,分为命名节点和数据节点,命名节点主要用于元数据管理(例如对目录,…

Java 类加载器

Java的类加载器分为四级: 启动类加载器:这个是最基础的,加载的是系统类,例如java.lang.Object类 扩展类加载器:加载的是jre或者lib中的类 应用类加载器:加载的是类路径下的类,就是自己写的那些类 自定义的加载器…

面试总被追问k8s调度器工作原理, 收藏 == 学废

kube-scheduler负责将k8s pod调度到worker节点上。 当你部署pod时,在manifest文件pod规格上会指定cpu、memory、亲和性affinity、污点taints、优先级、持久盘等。 调度器的主要工作是识别create request然后选择满足要…

题解:十二重计数法

题解:十二重计数法 前置:计数基础(组合数,斯特林数) 多项式基础(多项式 exp)题面: 有 \(n\) 个球和 \(m\) 个盒子,要全部装进盒子里。 还有一些限制条件,那么有多少种方法放球?(与放的先后顺序无关) 限制…

Wyn 商业智能软件:3D 可视化大屏搭建与设备利用全指南

Wyn 商业智能软件:3D 可视化大屏搭建与设备利用全指南pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas&q…

什么是Java Lambda

Java Lambda表达式:实质上是将方法作为参数进行传递,一般是在你需要将一个单独的行为作为参数传递给另一个方法时用到 具体语法:t -> t.toString();其中 t 代表入参,如果是有多个,就用()括住,参数之间用逗号…

Java 代理

代理模式:为目标对象(被调用方)提供一个包装类即代理对象,调用方通过调用代理对象来达到调用目标对象的目的,这样就实现调用方与目标对象之间的解耦。 java中的代理模式分为静态代理和动态代理两种。 静态代理编码…

《算法与数据结构》第七章[算法2]:广度优先搜索(BFS) - 指南

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

中转API为什么比官方更便宜?AI中转站成本揭秘

中转API为什么比官方更便宜?AI中转站成本揭秘 近两年,AI 大模型飞速发展,OpenAI、Anthropic、Google、Azure 等官方 API 成本依旧高企,大量个人和开发者无法承受长期高成本。但你会发现:市面上有不少 AI 中转站,…

Java 混合编程

Java内置了脚本语言引擎,支持直接对JavaScript语言的调用(直接调用是指直接在java源码中编写相应的脚本语言,然后通过引擎加载,直接使用),也支持Groovy和R语言,可通过 ScriptEngineManager manager = new Scrip…

Java 语法糖

for-each:语法简便,可避免数组越界,无法更新(更新是指把集合内的某一个对象替换成另一个,不是对象内部值的修改)和删除集合内对象,无法知道当前元素的位置索引 枚举:JDK5提出的,用enum进行声明,表示一组限定值…

JAVA RMI编程

RMI:远程方法调用,不同机器上的java进程通讯的时候,可以采用这种方法,基本流程,服务端到RMI上进行注册,客户端请求RMI,获取RMI上注册的服务,并存储到本地,客户端通过存储在本地地址,对服务端进行访问 与网络…