Spark概述

Spark概述

  • Spark是什么

    1. Apache Spark是一个快速的,多用途的集群计算系统,相对于Hadoop MapReduce将中间结果保存在磁盘中,Spark使用了内存保存中间结果,能在数据尚未写入硬盘时在内存中进行运算
    2. Spark只是一个计算框架,不像Hadoop一样包含了分布式文件系统和完备的调度系统,如果要使用Spark,需要搭载其它的文件系统和更成熟的调度系统
  • Spark特点

    1. 速度快

      1. Spark的在内存时的运行速度是Hadoop MapReduce的100倍
      2. 基于硬盘的运算速度大概是Hadoop MapReduce的10倍
      3. Spark实现了一种叫做RDDs的DAG执行引擎,其数据缓存在内存中可以进行迭代处理
    2. 易用

      1. Spark支持Java,Scala,Python,R,SQL等多种语言的API

      2. Spark支持超过80个高级运算符使得用户非常轻易的构建并行计算程序

      3. Spark可以使用基于Scala,Python,R,SQL的Shell交互式查询.

        df = spark.read.json("logs.json")
        df.where("age > 21") \.select("name.first") \.show()
        
    3. 通用

      1. Spark提供一个完整的技术栈,包括SQL执行,Dataset命令式API,机器学习库MLlib,图计算框架GraphX,流计算SparkStreaming
      2. 用户可以在同一个应用中同时使用这些工具,这一点是划时代的
    4. 兼容

      1. Spark可以运行在Hadoop Yarn,Apache Mesos,.Kubernets,Spark Standalone等集群中
      2. Spark可以访问HBase,HDFS,Hive,Cassandra在内的多种数据库
    5. 总结

      1. 支持Java,Scala,Python和R的API
      2. 可扩展至超过8K个节点
      3. 能够在内存中缓存数据集,以实现交互式数据分析
      4. 提供命令行窗口,减少探索式的数据分析的反应时间
  • Spark组成

    1. Spark-Core和弹性分布式数据集(RDDs)
      1. Spark-Core是整个Spark的基础,提供了分布式任务调度和基本的 I/O 功能
      2. Spark的基础的程序抽象是弹性分布式数据集(RDDs),是一个可以并行操作,有容错的数据集合
        1. RDDs 可以通过引用外部存储系统的数据集创建(如HDFS, HBase),或者通过现有的 RDDs 转换得到
        2. RDDs 抽象提供了Java, Scala, Python等语言的API
        3. RDDs 简化了编程复杂性,操作 RDDs 类似通过 Scala 或者 Java8 的 Streaming 操作本地数据集合
    2. Spark SQL
      1. Spark SQL 在 spark-core 基础之上带出了一个名为 DataSet 和 DataFrame 的数据抽象化的概念
      2. Spark SQL 提供了在 Dataset 和 DataFrame 之上执行 SQL 的能力
      3. Spark SQL 提供了 DSL, 可以通过 Scala,Java,Python 等语言操作 DataSet 和 DataFrame
      4. 它还支持使用 JDBC/ODBC 服务器操作 SQL 语言
    3. Spark Streaming
      1. Spark Streaming 充分利用 spark-core 的快速调度能力来运行流分析
      2. 它截取小批量的数据并可以对之运行 RDD Transformation
      3. 它提供了在同一个程序中同时使用流分析和批量分析的能力
    4. MLlib
      1. MLlib 是 Spark 上分布式机器学习的框架. Spark 分布式内存的架构 比 Hadoop 磁盘式的 Apache Mahout 快上10倍,扩展性也非常优良
      2. MLlib 可以使用许多常见的机器学习和统计算法,简化大规模机器学习
      3. 汇总统计,相关性,分层抽样,假设检定,随即数据生成
      4. 支持向量机,回归,线性回归,逻辑回归,决策树,朴素贝叶斯
      5. 协同过滤,ALS
      6. K-means
      7. SVD 奇异值分解,PCA 主成分分析
      8. TF-IDF , Word2Vec , StandardScaler
      9. SGD随机梯度下降,L-BFGS
    5. Graphx
      1. GraphX 是分布式图计算框架,提供了一组可以表达图计算的APL,GraphX还对这种抽象化提供了优化运行
    6. 总结
      1. Spark 提供了批处理 (RDDs), 结构化查询 (DataFrame),流计算 (SparkStreaming),机器学习 (MLlib), 图计算(GraphX)等组件

      2. 这些组件均是依托于通用的计算引擎 RDDs 而构建出的,所以 spark-core 的 RDDs 是整个 Spark 的基础

  • Spark和Hadoop之间的关系

    HadoopSpark
    类型基础平台,包含计算,存储,调度分布式计算工具
    场景大规模数据集上的批处理迭代计算,交互式计算,流计算
    延迟
    易用性API较为底层,算法适应性差API较为顶层,方便使用
    价格对机器要求低,便宜对内存有要求,相对较贵

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/600349.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Mac Install Parallels Desktop 19.1.0

资料准备 ParallelsDesktop-19.1.0-54729.dmg Parallels Desktop Activation Tool 4.0.0 [MacKed].dmg链接: https://pan.baidu.com/s/1kxUKreiKdJXQIPXAJ8LJsA?pwd6666 提取码: 6666 –来自百度网盘超级会员v7的分享 双击 ParallelsDesktop-19.1.0-54729.dmg 点击打开 …

Apple 移动设备管理常见问题解答

什么是 Apple 移动设备管理 (MDM)? Apple 在企业中的扩张带来了生产力更高的员工队伍以及员工真正在任何地方工作的能力。 但更多的自由、不断扩大的边界和新的操作系统也会带来挑战。 任何规模的组织都必须让每个人的设备保持最佳运行状态,确保硬件和网…

Android studio环境配置

1.搜索android studio下载 Android Studio - Download 2.安装 3.配置环境 配置gradle,gradle参考网络配置。最后根据项目需求选择不同的jdk。

flutter 五:MaterialApp

MaterialApp const MaterialApp({super.key,this.navigatorKey, //导航键this.scaffoldMessengerKey, //scaffold管理this.home, //首页Map<String, WidgetBuilder> this.routes const <String, WidgetBuilder>{}, //路由this.initialRoute, //初始路由th…

Oracle START WITH 递归语句的使用方法及示例

Oracle数据库中的START WITH语句经常与CONNECT BY子句一起使用&#xff0c;以实现对层次型数据的查询。这种查询模式非常适用于处理具有父子关系的数据&#xff0c;如组织结构、分类信息等。 理解START WITH和CONNECT BY 在层次型查询中&#xff0c;START WITH定义了层次结构…

【SpringMVC】常用注解

什么是MVC&#xff1f; MVC是一种程序分层开发模式&#xff0c;分别是Model&#xff08;模型&#xff09;&#xff0c;View&#xff08;视图&#xff09;以及Controller&#xff08;控制器&#xff09;。这样做可以将程序的用户界面和业务逻辑分离&#xff0c;使得代码具有良好…

Leetcode2966. 划分数组并满足最大差限制

Every day a Leetcode 题目来源&#xff1a;2966. 划分数组并满足最大差限制 解法1&#xff1a;排序 将数组 nums 从小到大排序&#xff0c;每三个一组插入答案&#xff0c;如果有 nums[i 2] - nums[i] > k&#xff0c;则不满足要求&#xff0c;返回空数组。 代码&…

专业实习day3、4(路由器做内网访问公网)

专业实习 代码 display ip interface brief 显示当前设备下所有接口IP undo IP地址支持覆盖&#xff0c;但是正常的命令不能覆盖必须undo&#xff08;删除&#xff09;掉 un in en 在做配置的过程中&#xff0c;设备系统一般都会出现一些提示或者告警之类的东西&#xff0c;从…

matplotlib 虚战1

EDA 入门 visualization.py import matplotlib matplotlib.use("TkAgg")import pandas as pd from matplotlib import pyplot as plt import warningswarnings.filterwarnings(ignore)df pd.read_csv("diabetes.csv")# look at the first 5 rows of the…

字节填充与0比特填充以及数据链路的基本问题

目录 字节填充&#xff1a; 比特填充&#xff1a; 数据链路有三个基本问题 1.封装成帧 2.透明传输 3.差错检测 首先介绍一下PPP的帧结构&#xff1a; 首部的第一个字段和尾部的第二个字段都是标志字段F(Flag)&#xff0c;规定为0x7E (符号“0x”表示它后面的字符是用十六…

AntV-G6 -- 将G6图表应用到项目中

1. 效果图 2. 安装依赖 npm install --save antv/g6 3. 代码 import { useEffect } from alipay/bigfish/react; import G6 from antv/g6;const data {id: root,label: 利息收入,subLabel: 3,283.456,ratio: 3,children: [{id: child-a,label: 平均利息,subLabel: 9%,ratio:…

MySQL-约束

约束是作用在表中字段的规则&#xff0c;用于限制存储在表中的数据。 约束是作用于表中的字段上的&#xff0c;我们可以在创建表/修改表的时候添加约束。 目的&#xff1a;保证数据库中数据的正确&#xff0c;有效性和完整性。 常见约束&#xff1a; 举个例子&#xff1a;假…

Wrk压测发送Post请求的正确姿势

一、Wrk简介 wrk 是一个能够在单个多核 CPU 上产生显著负载的现代 HTTP 基准测试工具。它采用了多线程设计&#xff0c;并使用了像 epoll 和 kqueue 这样的可扩展事件通知机制。此外&#xff0c;用户可以指定 LuaJIT 脚本来完成 HTTP 请求生成、响应处理和自定义报告等功能。 …

多内层神经网络具有先天的不可解释性

多层神经网络的不可解释性是指其内部的决策过程很难被人类理解和解释。这主要是因为多层神经网络具有大量的神经元和多个层次的连接&#xff0c;使得网络的决策过程变得非常复杂。 具体而言&#xff0c;多层神经网络中每一层的神经元会根据输入的特征进行加权组合和非线性变换&…

数据结构学习 jz60 n个骰子的点数

关键词&#xff1a;动态规划 滚动数组优化 这道题还是不难的&#xff0c;就是特别纠结要怎么优化这个存储空间以及动态规划的方法&#xff0c;因为我觉得这个方法好原始&#xff0c;最后决定不优化了。最后发现题解也是这个原始的样子&#xff0c;我就放心了。用时38min。 题…

uView NoticeBar 滚动通知

该组件用于滚动通告场景&#xff0c;有多种模式可供选择 #平台差异说明 App&#xff08;vue&#xff09;App&#xff08;nvue&#xff09;H5小程序√√√√ #基本使用 通过text参数设置需要滚动的内容 <template><view><u-notice-bar :text"text1&quo…

mysql函数和存储过程

在MySQL中&#xff0c;函数&#xff08;Function&#xff09;和存储过程&#xff08;Stored Procedure&#xff09;都是由SQL声明构成的编程构件&#xff0c;它们被存储在数据库中以便重复使用。下面将详细介绍两者的区别、使用场景&#xff0c;并提供代码示例。 区别 返回值&…

【AI视野·今日Sound 声学论文速览 第三十九期】Tue, 2 Jan 2024

AI视野今日CS.Sound 声学论文速览 Tue, 2 Jan 2024 Totally 7 papers &#x1f449;上期速览✈更多精彩请移步主页 Daily Sound Papers Enhancing Pre-trained ASR System Fine-tuning for Dysarthric Speech Recognition using Adversarial Data Augmentation Authors Huimen…

Windows BAT脚本 | 定时关机程序

使用说明&#xff1a;输入数字&#xff0c;实现一定时间后自动关机。 单位小时&#xff0c;用后缀 h 或 H。示例 1h 单位分钟&#xff0c;用后缀 m 或 M 或 min。示例 30min 单位秒。用后缀 s 或不用后缀。示例 100s 源码 及 配置方法 桌面新建文本文件&#xff0c;输入下面…