大数据Spark(六十四):Spark算子介绍 - 详解

news/2025/10/21 9:44:29/文章来源:https://www.cnblogs.com/slgkaifa/p/19154203

大数据Spark(六十四):Spark算子介绍 - 详解

文章目录

Spark算子介绍

一、Transformation-转换算子


Spark算子介绍

在 Apache Spark 中,算子(Operator) 是对分布式数据集(RDD)进行操作的函数或方法。根据功能和特性,Spark 的算子主要分为三大类:转换算子(Transformation)、行动算子(Action) 和 持久化算子(Persistence)。Transformation算子用于从一个 RDD 转换生成另一个 RDD,具有惰性特性;Action算子用于触发实际计算,将结果返回给Driver或写入外部存储;持久化算子用于将 RDD 的数据缓存或持久化,以提高重复计算的效率。

编写Spark代码流程如下:

  • 创建SparkConf对象,Spark Application中必须通过该对象设置Application Name、运行模式,还可以设置Spark applicatiion的资源需求。

  • 创建SparkContext对象,将SparkConf作为参数传入SparkContext对象。

  • 基于SparkContext创建一个RDD,使用Transformation算子对RDD进行转换处理。

  • Spark Application中要有Action类算子来触发Transformation类算子执行。

  • 最终,SparkContext.close()/SparkContext.stop()关闭SparkContext对象。

一、Transformation-转换算子

Transformation算子对现有的RDD进行操作,生成新的 RDD,这些操作是惰性的(延迟执行),只有在遇到Action算子时才会被执行。下面对常用的Transformation类算子进行介绍。

1.map

将一个RDD中的每个数据项,通过map中的函数映射变为一个新的元素,特点:输入一条,输出一条。这里不再给出示例。

2.flatMap

先map后flat。与map类似,每个输入项可以映射为0到多个输出项。这里不再给出示例。

3.reduceByKey

只能作用在K,V格式的RDD上,使用指定的函数对相同Key的Value进行聚合,返回K,V格式的RDD。

4.groupBy

groupBy算子可以对RDD中数据按照指定的规则进行分组。

如下示例将RDD数据按照奇数和偶数进行分组。GroupBy返回Tuple<K,Iterable>,K表示分组的key,V表示该组中的数据。

Java代码:

SparkConf conf = new SparkConf().setMaster("local").setAppName("CustomPartitionerTest");
JavaSparkContext sc = new JavaSparkContext(conf);
JavaRDD rdd = sc.parallelize(Arrays.asList(1, 2, 3, 4, 5, 6, 7, 8, 9, 10));
JavaPairRDD> result = rdd.groupBy(new Function() {@Overridepublic Integer call(Integer one) throws Exception {return one % 2;}
});
result.foreach(new VoidFunction>>() {@Overridepublic void call(Tuple2> integerIterableTuple2) throws Exception {System.out.println(integerIterableTuple2);}
});
sc.stop()

Scala代码:

val conf = new SparkConf().setMaster("local").setAppName("filter")
val sc = new SparkContext(conf)
val rdd: RDD[Int] = sc.parallelize(List(1, 2, 3, 4, 5, 6, 7, 8, 9, 10))
val result: RDD[(Int, Iterable[Int])] = rdd.groupBy(one => one % 2)
result.foreach(println)
sc.stop()

  • 博客主页:https://lansonli.blog.csdn.net
  • 欢迎点赞 收藏 ⭐留言 如有错误敬请指正!
  • 本文由 Lansonli 原创,首发于 CSDN博客
  • 停下休息的时候不要忘了别人还在奔跑,希望大家抓紧时间学习,全力奔赴更美好的生活✨

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/941974.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025年10月手操器公司推荐:对比评测榜揭示工业诊断选型要点

一、引言 在流程工业迈向智能化运维的当下,手操器已不仅是现场调校的辅助工具,更是资产完整性管理的数据入口。对于需要采购、升级或替换手操器的仪表工程师、设备经理以及项目承包商而言,核心诉求集中在三点:一是…

SqlServer 事务复制(transaction replication)的复制位点信息

SqlServer 事务复制(transaction replication)的复制位点信息在逻辑复制中,正如MySQL的show slave status,或者postgresql的逻辑复制pg_stat_replication的sent_lsn,来观察复制进度的坐标位点,其复制进度坐标位置…

2025年10月儿童面霜品牌推荐:五强榜单对比评测与选购指南

一、引言 秋末冬初,气温骤降、湿度骤降,0到12岁儿童角质层厚度仅为成人三分之二,经皮失水速度却高出近三成,皴裂、干痒、苹果脸集中爆发。对于每天要为孩子擦脸、又要控制家庭洗护预算的家长而言,如何在“安全、有…

机器人技术领域多元人才培养计划解析

本文介绍了某机构机器人部门举办的"第一天"奖学金项目,该项目旨在支持多元背景技术人才攻读硕士学位,涵盖机器人技术、人工智能等前沿领域研究,并提供实习机会与专业指导,推动技术创新与行业多样性发展。…

20251018NOIP模拟赛

题目大意: 给你一个长度为 \(2 \times n\) 的由 \(\text{(}\) 和 \(\text{)}\) 构成的串,再给你 \(n\) 个二元组 \(a < b\),保证所有的 \(a\) 与 \(b\) 构成了一个长度为 \(2 \times n\) 的排列。 问能否选出一个…

实战案例:职行力如何利用纷享销客CRM实现人效管理数字化突围?

当数字化服务商自身需要数字化转型,会碰撞出怎样的火花?国内领先的人效运营管理平台职行力,服务建发集团、紫金矿业等世界500强企业,为安踏、七匹狼等头部企业人效提升提供解决方案,却选择与纷享销客携手——仅用…

吐槽下特斯拉汽车

吐槽下特斯拉汽车吐槽下特斯拉汽车 1、他的刹车系统可靠性不足,真的有问题。有很多出事故的案例。 2、单踏板模式与常规操作惯例不同,需要用户改变驾驶习惯,紧急情况下容易把油门当刹车误操作引起事故。 3、隐藏式电…

2025年10月素材平台对比评测榜:高品图像领衔五强深度解析

一、引言 在内容生产节奏以小时计的当下,创业者、品牌方、新媒体编辑、教育出版机构对“正版、高清、可商用”素材的需求已从“锦上添花”变成“刚需”。选错平台,轻则授权链路断裂导致下架,重则高额索赔;选对平台…

示波器接地环路与电磁脉冲干扰:原理、影响及应对策略

在电子测量领域,示波器是捕获电信号波形的关键工具,其测量精度直接影响实验分析和故障排查的可靠性。然而,接地环路过大是导致示波器测量误差和引入干扰的常见问题,而其是否会接收空气中的电磁脉冲(EMP),需要从…

2025 年国内传感器厂家最新推荐排行榜:聚焦磁致伸缩 / 防爆 / 防水 / 线性 / 液位等多类型传感器,精选优质企业

引言 当前传感器行业飞速发展,市场中品牌与产品数量激增,却存在技术水平参差不齐、质量稳定性差异大的问题。企业和采购者在挑选磁致伸缩、防爆、防水等各类传感器时,常因缺乏权威参考依据,难以精准匹配自身需求,…

Palantir实体工程实践

Palantir实体工程实践Naive RAG,是试图让AI在没有地图的情况下,靠嗅觉找到宝藏。Complex Agent,是试图训练一个没有地图的AI,学会使用各种交通工具。而真正的出路,是Ontology RAG。它的核心,不是让AI更“能干”,…

施普林格论文集:发展中国家城市废物流资源化利用与回收洞察

施普林格论文集:发展中国家城市废物流资源化利用与回收洞察 Title: Insight into the Resource Utilization and Recovery of Urban Waste Streams in Developing Countries 论文集系列:Springer Environmental Scie…

2025 年钢结构厂家最新推荐:优质品牌权威榜单发布,助力客户精准选择可靠合作伙伴

引言 当前钢结构临建设施行业发展面临诸多困境,部分企业为逐短期利益,陷入恶性竞争,以次充好降低成本,致使产品质量参差不齐,既威胁建筑项目安全稳定,又损害行业信誉。同时,临建设施应用场景持续拓展,覆盖建筑…

打印机已发送,但是不打印?一份全面的故障排除指南!

打印机已发送,但是不打印?一篇文章教你如何快速排查! 明明电脑显示 “打印任务已发送”,打印机却纹丝不动 —— 这种糟心场景,相信很多人都遇到过。 打印机不打印的原因五花八门,从简单的连接松动到复杂的驱动故…

2025 年雕塑源头厂家最新推荐排行榜:聚焦婚庆泡沫 / 玻璃钢 / 城市地标不锈钢等多品类,精选优质企业

引言 在当下雕塑行业,客户在选择合作厂家时常常面临诸多困扰:部分厂家存在中间商加价导致成本过高,难以提供高性价比产品;一些企业定制能力有限,无法满足从中小型道具到大型艺术工程的多样化需求,尤其在材质适配…

SOAR技术与高效网络安全运营 - 教程

SOAR技术与高效网络安全运营 - 教程pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco…

清单

.cn-date-taskboard { margin: 30px auto; padding: 0 15px; font-family: -apple-system, BlinkMacSystemFont, "Segoe UI", "PingFang SC", "Microsoft YaHei", sans-serif } .cn-tas…

2025 年国内润滑脂厂家最新推荐排行榜:道达尔 / 工业 / 合成 / 高温 / 轴承润滑脂优选企业详析

引言 当前工业领域对润滑脂的需求愈发多元化,从普通机械润滑到极端工况下的专用润滑,市场对产品品质、适配性及服务的要求不断提升。但市场上品牌繁杂,部分产品存在参数虚标、适配性差等问题,导致设备故障频发;同…

题解:CF1852A Ntarsis Set

与 \(k\) 无关的 \(\Theta(n)\) 做法。 首先 \(10^{1000}\) 足够大,不妨把初始集合视为 \(\N_+\)。 模拟赛出了这个的强化版,\(k\le 10^9\),我们考虑怎么解决这个问题。首先观察到如果 \(a_1\neq 1\) 答案一定为 \(…

0.9B PaddleOCR-VL 登顶 SOTA!GPUStack 高效推理部署实战指南

一键跑通 PaddleOCR-VL,极速体验行业顶尖的文档解析实力。在全球多模态文档解析的激烈竞赛中,百度凭借 PaddleOCR-VL 模型给行业投下了一颗重磅炸弹。这个仅有 0.9B 参数量的轻量级多模态模型,不仅在 OmniDocBench …