10-用PySpark建立第一个Spark RDD

目录

    • RDD概念
    • RDD特点
    • 建立RDD的方式
    • 不同工具建立RDD的方式
      • 使用PySpark Shell(交互环境)建立RDD
      • 使用VSCode编程建立RDD
      • 使用Jupyter Notebook建立RDD
    • 总结


PySpark实战笔记系列第一篇


RDD概念

Apache Spark的核心组件的基础是RDD。所谓的RDD,即弹性分布式数据集(Resiliennt Distributed Datasets),基于RDD可以实现Apache Spark各个组件在多个计算机组成的集群中进行无缝集成,从而能够在一个应用程序中完成海量数据处理。

RDD特点

  • 只读不能修改:只能通过转换操作生成一个新的RDD。
  • 分布式存储:一个RDD通过分区可以分布在多台机器上进行并行数据处理。
  • 内存计算:可以将全部或部分数据缓存在内存中,且可在多次计算过程中重用。
  • 具有弹性:在计算过程中,当内存不足时,可以将一部分数据落到磁盘上处理

建立RDD的方式

  • 用parallelize方法建立RDD:这种方式非常简单,主要用于进行练习或者测试
  • 用range方法建立RDD:这种方式和parallelize方法类似,一般来说主要用于进行测试
  • 使用textFile方法建立RDD:这种方式一般用于在本地临时性地处理一些存储了大量数据的文件。它依赖本地文件系统,因此可以不需要Hadoop环境。
  • 使用HDFS建立RDD:这种方式使用HDFS文件建立RDD,需要依赖Hadoop集群环境,它应该是最常用的一种生产环境下的数据处理方式。它可以针对HDFS上存储的海量数据,进行离线批处理操作。

不同工具建立RDD的方式

使用PySpark Shell(交互环境)建立RDD

在安装完成Spark环境后,就具备了Shell这款工具。其中,Spark Shell是针对Scala语言的,而PySpark Shell则是针对Python语言的。

使用PySpark Shell工具的方式,在命令行输入如下命令:pyspark

PySpark Shell默认会自动创建sc对象和spark对象,因此可以在交互环境中直接进行调用,而无须手动创建。这里,sc对象是SparkContext的实例,而spark对象是SparkSession的实例。

使用VSCode编程建立RDD

在VSCode中以编程方式需要手动创建SparkContext实例。

  • 首先需要用from pyspark import SparkConf, SparkContext导入SparkConf和SparkContext。
  • conf=SparkConf().setAppName(“WordCount”).setMaster("local[**]")**创建了一个SparkConf实例,其中用setAppName设置了本次程序的名称,用setMaster设置了Spark Master的方式为local[]。
  • **sc=SparkContext(conf=conf)**创建SparkContext实例sc,这与PySparkShell默认创建的sc对象类似。
  • SparkContext不能一次运行多个,否则会报ValueError: Cannot run multipleSparkContexts at once; existing SparkContext的错误。因此需要用sc.stop()命令关闭SparkContext实例对象。

需要用pip3 install findspark命令安装findspark,否则可能会提示无法找到pyspark模块的错误:ModuleNotFoundError: No module named ‘pyspark’。

示例界面:

使用Jupyter Notebook建立RDD

编码方式类似VS Code,不过它的好处是

  • 可以对多个代码以文件的形式进行组织,
  • 可以用于编写文档。
  • 更高级的是可以显示图形和运算结果。
  • 因此使用这种基于Web的部署方式,可以让多个客户端同时使用,且可共享代码示例,真正做到图文并茂地进行编程。

总结

** 1.sc对象的两种创建方式:**

"""
方式一:通过SparkConf创建
"""
from pyspark import SparkConf,SparkContext
# 创建SparkContext,即sc对象
conf = SparkConf().setAppName("Demo")\.setMaster("local[*]")
sc = SparkContext(conf=conf)
"""
方式二:通过SparkSession创建
"""
from pyspark.sql import SparkSession
spark = SparkSession.builder \.master("local[*]") \.appName("Demo")	\.getOrCreate();
# 创建SparkContext,即sc对象
sc = spark.sparkContext

2.完整的常用pyspark编程开头示例

根据上述两种sc的创建方式,对应的常用的编程开头方式即在上述样例的开头,加上如下代码:

import findspark
findspark.init()

参考资料:《Python大数据处理库PySpark实战》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/793645.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux 关闭防火墙命令(新手)

关闭防火墙 查看防火墙状态 systemctl status firewalld.service 临时关闭防火墙(重启失效) systemctl stop firewalld.service 永久关闭防火墙 systemctl disable firewalld.servicesudo systemctl enable firewalld,这种方式输入命令…

施耐德 Unity Pro PLC 编程软件介绍

Unity Pro 软件基本介绍 Unity Pro 是施耐德中大型 PLC 的编程软件&#xff08;<–> 对应西门子 Step7&#xff09; 支持的 PLC&#xff1a;施耐德中大型 PLC 中型 PLC&#xff1a;Premium、M340&#xff08;<–> 对应西门子 S7-300、S7-1200&#xff09;大型 PL…

【C++】探索C++中的类与对象(上)

​​ &#x1f331;博客主页&#xff1a;青竹雾色间. &#x1f618;博客制作不易欢迎各位&#x1f44d;点赞⭐收藏➕关注 ✨人生如寄&#xff0c;多忧何为 ✨ C是一种强大的编程语言&#xff0c;其面向对象的特性使得代码结构更加清晰、易于维护和扩展。在C中&#xff0c;类与…

常见docker使用命令

#搭建镜像 “”" sudo docker build -t es_refresh:V1.20230303 . “”" #启动容器 “”" docker run -d --namepara_classify -v /etc/localtime:/etc/localtime -v /data/chenhw/multi_label_classification:/edb2vec -p 8066:8066 --gpus ‘“device0”’…

Day83:服务攻防-开发组件安全JacksonFastJson各版本XStreamCVE环境复现

目录 J2EE-组件Jackson-本地demo&CVE 代码执行 (CVE-2020-8840) 代码执行 (CVE-2020-35728&#xff09; J2EE-组件FastJson-本地demo&CVE FastJson < 1.2.24 FastJson < 1.2.47 FastJson < 1.2.80 (利用条件比较苛刻) J2EE-组件XStream-靶场&CVE …

高度不同的流体瀑布css实现方法

商城商品列表 实现瀑布流展示&#xff0c;通过flex或grid实现会导致每行中的列高度一致&#xff0c;无法达到错落有致的感觉&#xff1b; 为此需要用到&#xff1a; CSS columns 属性 columns 属性是一个简写属性&#xff0c;用于设置列宽和列数。 CSS 语法 columns: column-wi…

如何让Webots支持C#语言开发的控制器

Webots支持C、C、Java、Python、Matlab这五种语言开发控制器&#xff0c;没有直接支持C#&#xff0c;但有个同事已经用C#写了大量的机器人控制代码&#xff0c;想在不把C#代码改写成C的情况下&#xff0c;直接用webots仿真&#xff0c;那就得想想办法。(不过&#xff0c;让Chat…

字节新作:图像生成质量超越DiT

&#x1f31f;每日更新最新高质量论文&#xff0c;关注我&#xff0c;时刻关注最新大模型进展。&#x1f31f; &#x1f4cc; 元数据概览&#xff1a; 标题&#xff1a;Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction作者&#xff1a…

Java 内存占用过高应该如何优化

优化Java程序的内存占用是提高程序性能和稳定性的重要任务之一。内存占用过高可能导致系统性能下降、内存泄漏、频繁的垃圾回收等问题&#xff0c;影响程序的运行效率和用户体验。因此&#xff0c;对于Java程序内存占用过高的情况&#xff0c;需要采取一系列措施进行优化。 1.…

算法设计与分析实验报告java实现(排序算法、三壶谜题、交替放置的碟子、带锁的门)

一、 实验目的 1&#xff0e;加深学生对算法设计方法的基本思想、基本步骤、基本方法的理解与掌握&#xff1b; 2&#xff0e;提高学生利用课堂所学知识解决实际问题的能力&#xff1b; 3&#xff0e;提高学生综合应用所学知识解决实际问题的能力。 二、实验任务 1、排序算法…

【随笔】Git 高级篇 -- 相对引用2(十三)

&#x1f48c; 所属专栏&#xff1a;【Git】 &#x1f600; 作  者&#xff1a;我是夜阑的狗&#x1f436; &#x1f680; 个人简介&#xff1a;一个正在努力学技术的CV工程师&#xff0c;专注基础和实战分享 &#xff0c;欢迎咨询&#xff01; &#x1f496; 欢迎大…

面向对象9

面向对象9 一.内部类 1、什么是内部类&#xff1f; 将一个类A定义在另一个类B里面&#xff0c;里面的那个类A就称为内部类&#xff08;InnerClass&#xff09;&#xff0c;类B则称为外部类&#xff08;OuterClass&#xff09;。 2、为什么需要内部类&#xff1f; 具体来说…

操作系统八股|用户态和内核态

文章目录 内核态(Kernel Mode)用户态(User Mode)用户态和内核态之间的切换为什么要切换如何切换系统调用硬件中断异常处理 为了使操作系统内核提供⼀个⽆懈可击的进程抽象&#xff0c;处理器必须提供⼀种机制&#xff0c; 限制⼀个应⽤可以执⾏的指令以及他可以⽤来访问的地址…

4.4C++

1 #include <iostream> #include <cmath> using namespace std; class A{ private:int a;// 判断一个数是否为质数bool isP(int num) {if (num<2) return false;for (int i2;i<sqrt(num);i) {if (num % i 0) {return false;}}return true;} public:// 构造…

open-cd框架调试记录

源于论文Changer: Feature Interaction Is What You Need forChange Detection 源码位置&#xff1a;open-cd/README.md at main likyoo/open-cd (github.com) 同样是基于MMSegmentation框架的代码&#xff0c;不符合本人编程习惯所以一直也没有研究这东西&#xff0c;近期打…

Linux进程概念(二):进程的基本概念与进程的创建

目录 进程的基本概念 进程控制块-PCB 学前补充 预备知识 创建&#xff08;子&#xff09;进程 创建&#xff08;子&#xff09;进程的原因 理解fork有两个返回值 进程的基本概念 基本概念&#xff1a;程序的一个执行实例&#xff0c;正在执行的程序等 内核层面&#x…

R语言数据分析基础(四)- 引用其他文件中的函数

在R语言中&#xff0c;要引用其他文件中的函数&#xff0c;可以使用source()或load()函数。source()函数用于执行一个R脚本文件&#xff0c;而load()函数用于加载一个包含函数定义的R包。 使用source()函数引用其他文件中的函数&#xff1a; # 假设有一个名为my_functions.R的…

(源码+讲解+部署)基于Spring Boot和Vue的考研教育系统的设计与实现

前言 &#x1f497;博主介绍&#xff1a;✌专注于Java、小程序技术领域和毕业项目实战✌&#x1f497; &#x1f447;&#x1f3fb; 精彩专栏 推荐订阅&#x1f447;&#x1f3fb; 2024年Java精品实战案例《128套》 &#x1f345;文末获取源码联系&#x1f345; &#x1f31f…

使用generator实现async函数

我们先来看一下async函数是怎么使用的 const getData (sec) > new Promise((resolve) > {setTimeout(() > resolve(sec * 2), sec * 1000);})// aim to get this asycnFun by generator async function asyncFun() {const data1 await getData(1);const data2 awa…

打造专业运营团队,武汉星起航引领全球跨境电商未来趋势

近年来&#xff0c;随着全球经济的不断发展&#xff0c;跨境电商作为国际贸易的一种新模式&#xff0c;已然成为推动全球经济增长的新引擎。在这个浩荡的潮流中&#xff0c;武汉星起航以亚马逊自营店铺为依托&#xff0c;凭借丰富的实战运营经验和专业的团队&#xff0c;正积极…