广播变量在spark中的用法以及数据倾斜问题的解决方法

1. spark中的广播变量
  • 应用场景:广播变量用于在集群的各个节点的executor 中高效的分发一个只读的变量副本

  • 操作原理:创建一个广播变量时,spark会将变量序列化并发送到每一个executor,每一个executor存一个副本,而不需要每次执行任务重新重driver或其他节点来获取,spark任务涉及到对该变量的访问时就只需要从本地executor内存中来获取即可,避免了在网络中频繁的传输大量重复的数据

  • 目的: 就是为了减少冗余数据在网络中的传输,提升了分布式计算环境下的访问速度和整体的性能

  • 广播变量适合场景: 那些需要在多个任务中共享, 且数据量适中可以存在executor内存中的情况

2. 广播join (map-side join)  在map task 本地解决join
  • 应用场景: 在处理大规模的join操作时,其中一方的数据集明显较小,就是所谓的小表就可以通过广播join, 将小的数据集加载到每一个map task的executor的内存中,那种join操作中某些key对应的键的record数量远大于其他key的record数量,导致在reducer task 严重的负载不均衡问题

  • 操作原理:广播join 发生在map端非reduce 端无需通过网络传输shuffle就可以到达reduce 端,减少I/O,hive将小表的数据全部加载到map task 的内存中作为广播变量,然后对每一条大表的record ,在本地内存中查找是否有匹配的小表record ,并立即完成join操作,

    由于每个join 在每个map task内部独立完成 ,无需经过网络shuffle 就可以到达reduce 端,进而大大减少了网络传输和磁盘i/o,消除了因为数据倾斜造成的

  • 目的主要目的是利用小表数据可以被广播到所有的map task 内存的特点 提前在map 端完成了join 操作,避免了常规的join操作中需要的昂贵的shuffle过程,特别是适合于数据倾斜问题,显著提高了join的操作效率

    这种策略的前提是小表的数据必须要足够小,能够被全部加载到每个节点的内存中

  • 代码:

        def main(args: Array[String]): Unit = {/*** rdd 处理数据倾斜-广播join*/val spark = SparkSession.builder().appName("MapSideBroadcastJoin").getOrCreate()// 假设已经读取了大表和小表的数据,并转换为RDD[(String, String)]// 大表val bigTable: RDD[(String, String)] = spark.sparkContext.textFile("hdfs://path/to/big_table.csv").map(line => line.split(",")).map(arr => (arr(0), arr(1)))// 小表val smallTable: RDD[(String, String)] = spark.sparkContext.textFile("hdfs://path/to/small_table.csv").map(line => line.split(",")).map(arr => (arr(0), arr(1)))// 将小表转换为本地集合并广播val smallTableBroadcast: Broadcast[Map[String, String]] = spark.sparkContext.broadcast(smallTable.collectAsMap().toMap)// 定义Map函数,执行Map-Side JOINdef joinWithSmallTable(bigRecord: (String, String)): Option[(String, (String, String))] = {smallTableBroadcast.value.get(bigRecord._1).map { smallValue =>(bigRecord._1, (bigRecord._2, smallValue))}}// 应用Map函数,过滤掉没有匹配的小表记录val joinedData: RDD[(String, (String, String))] = bigTable.flatMap(joinWithSmallTable)// 打印或进一步处理joinedDatajoinedData.foreach(println)spark.stop()

3 . reduce_side join

都是基于优化分布式计算思想

关于使用广播join  使用map-side 函数在map端进行merage 在本地executor 中完成join过程

减少网络传输, 以及减少磁盘的I/O

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/819709.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux系统USB/IP远程共享USB设备 —— 筑梦之路

概述 USB/IP 是一个开源项目,已合入 Kernel,在 Linux 环境下可以通过使用 USB/IP 远程共享 USB 设备。 USB Client:使用USB的终端,将server共享的usb设备挂载到本地。 USB Server:分享本地的usb设备至远程。 架构原理…

归并排序详解(附代码)

归并排序 数据科学家每天都在处理算法。 然而,数据科学学科作为一个整体已经发展成为一个不涉及复杂算法实现的角色。 尽管如此,从业者仍然可以从建立对算法的理解和知识库中受益。 在本文中,对排序算法归并排序进行了介绍、解释、评估和实…

vue3从精通到入门4:diff算法的实现

Vue 3 的 diff 算法相较于 Vue 2 有了一些改进和优化,主要是为了应对更复杂的组件结构和更高的性能需求。 以下是 Vue 3 diff 算法在处理列表更新时的大致步骤: 头头比较:首先,比较新旧列表的头节点(即第一个节点&…

《Stable Diffusion AI绘画宝典:从入门到精通,解锁创意新境界》

前沿 在数字化浪潮席卷全球的时代,人工智能以其惊人的创造力和创新性引领着科技新风尚。党的二十大报告明确提出了“实施科教兴国战略,强化现代化建设人才支撑”的宏伟蓝图,展现了我国在新动能、新优势方面的坚定决心和强大气魄。在这个大背…

【Linux】进程的优先级环境变量

个人主页 : zxctscl 如有转载请先通知 文章目录 1. 前言2. 进程的优先级2.1 什么是优先级2.2 为什么要有优先级2.3 优先级的查看方式2.4 对优先级调整 3. 命令行参数4. 环境变量4.1 环境变量与配置文件4.1.1 环境变量初步介绍4.1.2 配置文件 4.2 更多环境变量4.3 整…

Postgresql源码(125)游标恢复执行的原理分析

问题 为什么每次fetch游标能从上一次的位置继续?后面用一个简单用例分析原理。 【速查】 恢复扫描需要知道当前页面、上一次扫描到的偏移位置、当前页面一共有几条: 当前页面:HeapScanDesc结构中记录了扫到的页面(scan->rs_cb…

Apache Paimon 流式湖仓介绍说明

文章目录 前言选择 Paimon 的原因Apache Paimon 功能一致性保证Paimon 表类型数据湖写入标签和时间线回溯捕获变更数据写入数据湖LSM 和分层文件重用流处理案例使用 Paimon 作为消息队列 前言 Apache Flink 自诞生以来经历了重大演变,如今,它不仅充当批…

毕设选51还是stm32?51太简单?

如果你更倾向于挑战和深入学习,STM32可能是更好的选择。如果你希望更专注于底层硬件原理,51可能更适合。我这里有一套嵌入式入门教程,不仅包含了详细的视频讲解,项目实战。如果你渴望学习嵌入式,不妨点个关注&#xff…

阿里云迁移到AWS云,九河云保姆级教程

随着云计算技术的不断发展,越来越多的企业开始将传统的IT基础设施迁移到云平台上,以获得更高的灵活性、可扩展性和成本效益。在众多云服务提供商中,阿里云和AWS都是备受青睐的选择。本文将探讨如何将阿里云上的资源顺利迁移到AWS云平台,并针对性地进行优化。我们九河云&#xf…

[图解]DDD领域驱动设计伪创新-聚合根06

0 00:00:00,740 --> 00:00:02,200 那刚才讲了 1 00:00:02,480 --> 00:00:04,211 Evans这个隐喻 2 00:00:04,211 --> 00:00:06,520 实际上背后是把集合 3 00:00:06,800 --> 00:00:08,560 当成了聚合 4 00:00:10,580 --> 00:00:14,350 那为什么有这样的一个隐…

OpenHarmony实战开发-如何使用AKI轻松实现跨语言调用。

介绍 针对JS与C/C跨语言访问场景,NAPI使用比较繁琐。而AKI提供了极简语法糖使用方式,一行代码完成JS与C/C的无障碍跨语言互调,使用方便。本示例将介绍使用AKI编写C跨线程调用JS函数场景。通过调用C全局函数,创建子线程来调用JS函…

GIS 数据格式转换

1、在线工具 mapshaper 2、数据上传 3、数据格式转换 导入数据可导出为多种格式:Shapefile、Json、GeoJson、CSV、TopJSON、KML、SVG

APP广告变现项目

APP广告变现项目 很多人觉得不可能,这是肯定存在的,不是现在才有的一个项目,这个项目的原理是怎么样呢,就是通过某些特定的app,然后看完广告就有收益,基本单次的观看单价都是在几毛到1块之间。 养机养好的…

阿里云服务器带宽多少钱?公网带宽收费标准全解析

阿里云服务器的公网带宽计费模式分为“按固定带宽”和“按使用流量”,有什么区别?按固定带宽是指直接购买多少M带宽,比如1M、5M、10M、100M等,阿里云直接分配用户所购买的带宽值,根据带宽大小先付费再使用;…

一套3种风格经典的wordpress免费主题模板

wordpress免费企业主题 https://www.wpniu.com/themes/39.html 免费wordpress企业模板 https://www.wpniu.com/themes/43.html 免费wordpress企业主题 https://www.wpniu.com/themes/44.html

波奇学Linux:ip协议

ip报头是c语言的结构体 报头和有效载荷如何分离? 固定长度四位首部长度 4位版本号就是IPV4 8位服务类型:4位TOS位段和位保留字段 4位TOS分别表示:最小延时,最大吞吐量,最高可靠性,最小成本 给路由器提…

【JAVA基础篇教学】第十六篇:Java连接和操作MySQL数据库

博主打算从0-1讲解下java基础教学,今天教学第十六篇:Java连接和操作MySQL数据库。 我将提供一个简单的示例代码,涵盖数据库连接、查询、插入和更新等操作。 一、下载MySQL驱动包 1.下载地址:MySQL :: Download Connector/J 2.解…

Navicat for MySQL 使用基础与 SQL 语言的DDL

一、目的: Navicat for MySQL 是一套专为 MySQL 设计的高性能数据库管理及开发 工具。它可以用于任何版本 3.21 或以上的 MySQL 数据库服务器,并支持大 部份 MySQL 最新版本的功能,包括触发器、存储过程、函数、事件、视图、 管理用户等。…

VMware配置CentOS 7 并实现ssh连接

Vmware 17下载地址 ***永久许可证:***5Y012-8HL8P-0J8U0-032Q6-93KKF CentOS 7 下载地址 一、配置CentOS 如下 创建新的虚拟机,选择典型,点击下一步 选择上述下载镜像存储位置,选择镜像,点击下一步 3.填写相关信息…

微信小程序wx.getLocation 真机调试不出现隐私弹窗

在小程序的开发过程中,首页中包含要获取用户地理位置的功能,所以在这里的onLoad()中调用了wx.getLocation(),模拟调试时一切正常,但到了真机环境中就隐私框就不再弹出,并且出现了报错&#xff0…