Spark精华问答 | spark性能优化方法

640?wx_fmt=png

Hadoop再火,火得过Spark吗?今天我们继续关于Spark的精华问答吧。



640?wx_fmt=gif1

Q:影响性能的主要因素是什么?


A:网络传输开销大

硬件资源利用率低

同一资源的复用率低


640?wx_fmt=gif2

Q:优化的方向有哪些?


A:设置数据本地化,减少跨节点跨机架的网络传输开销

设置合适的存储格式,推荐orc,缩短查询时间

设置内存计算的大小和task数量,根据集群内存和磁盘大小调整

调整分区数量,提高查询性能

减少RDD的重复创建,同时尽可能复用已存在的RDD

减少使用shuffle类算子(reduceByKey,join,distinct,repartition)

选择可替代的最佳算子,reduceByKey替代groupByKey,mapPartitions替代map

避免数据倾斜,如map端Join,对数据深入理解的前提修改key调整reduce端的数据倾斜

提高spark最大的瓶颈-内存


640?wx_fmt=gif3

Q优化的手段


A:调优参数虽名目多样,但最终目的是提高CPU利用率,降低带宽IO,提高缓存命中率,减少数据落盘。 (以下参数主要用于Spark Thriftserver,仅供参考)640?wx_fmt=png


640?wx_fmt=gif4

Q:Spark生态圈介绍


A:Spark力图整合机器学习(MLib)、图算法(GraphX)、流式计算(Spark Streaming)和数据仓库(Spark SQL)等领域,通过计算引擎Spark,弹性分布式数据集(RDD),架构出一个新的大数据应用平台。


    Spark生态圈以HDFS、S3、Techyon为底层存储引擎,以Yarn、Mesos和Standlone作为资源调度引擎;使用Spark,可以实现MapReduce应用;基于Spark,Spark SQL可以实现即席查询,Spark Streaming可以处理实时应用,MLib可以实现机器学习算法,GraphX可以实现图计算,SparkR可以实现复杂数学计算。640?wx_fmt=png


640?wx_fmt=gif5

Q:Spark SQL


A:基于HiveQL与Spark交互的API接口,将一个数据库表看作一个RDD进行操作

数据类型为DataFrame,支持结构化的数据文件,Hive表和已存在的RDD

兼容性好,支持nosql数据库

通过内存列存储技术和字节码生成技术实现空间占用量,读取吞吐率和SQL表达式的优化,查询性能高


640?wx_fmt=png

小伙伴们冲鸭,后台留言区等着你!

关于Spark,今天你学到了什么?还有哪些不懂的?除此还对哪些话题感兴趣?快来留言区打卡啦!留言方式:打开第XX天,答:……

同时欢迎大家搜集更多问题,投稿给我们!风里雨里留言区里等你~


福利

1、扫描添加小编微信,备注“姓名+公司职位”,加入【云计算学习交流群】,和志同道合的朋友们共同打卡学习!


640?wx_fmt=jpeg

2、公众号后台回复:白皮书,获取IDC最新数据白皮书整理资料!


推荐阅读:

  • 三十四载Windows崛起之路: 苹果、可视做过微软“铺路石”

  • 面试官:你简历中写用过docker,能说说容器和镜像的区别吗?

  • 2019年技术盘点容器篇(二):听腾讯云讲讲踏入成熟期的容器技术 | 程序员硬核评测

  • C++、Python、Rust、Scala构建编译器的差异性究竟有多大?

  • 想换行做 5G 的开发者到底该咋办?

  • 如何在标准的机器学习流程上玩出新花样?

  • 独家 | Vitalik Buterin:以太坊2.0之跨分片交易

  • 滴滴章文嵩:不仅软件开源,还向学界开放数据


    真香,朕在看了!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/523211.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

android 7.0 解锁亮屏,Android7.0亮屏流程分析

亮屏的本质是改变屏幕的电源状态,经过一系列的调用会来到PowerManagerService中的updatePowerStateLocked()1.PowerManagerService到DisplayPowerControllerprivate void updatePowerStateLocked() {if (!mSystemReady || mDirty 0) {return;}if (!Thread.holdsLoc…

concat函数显示小数点包括0

场景1:当小数点大于等于3位小于5位: select regexp_replace(concat(nvl(round(0.0001,4),0)*100,%),^.,0.)as rate from dual;例如:0.001-0.0001 场景2:当小数点小于等于2位: select concat(nvl(round(0.01,4),0)*1…

阿里云Elasticsearch的X-Pack:机器学习、安全保障和可视化

摘要: ELK是日志分析领域较为流行的技术选择,不少阿里云用户选择在ECS上搭建开源Elasticsearch。与自建开源Elastisearch相比,阿里云Elasticsearch做了性能优化,支持弹性扩容,并搭载了商业版组件X-Pack,为用…

Linux部署Web应用程序超链接下载中文名称文件404问题解决办法

超链接内容如下&#xff1a; <a href"jsp/plugin/用户手册.doc">用户手册</a>开发环境为Windows&#xff0c;Tomcat和WebSphere都用过&#xff0c;超链接都能正常下载 项目生产环境为Linux&#xff0c;由于Linux默认不支持中文&#xff0c;因此超链接下…

2017北京云栖大会:云效企业级协同研发专场议题揭秘!

摘要&#xff1a; 阿里巴巴原汁原味的研发协同平台是如何支撑双十一1682亿背后的研发协同&#xff1f;大中型企业如何完成公有云/专有云/混合云转型升级&#xff0c;实现高效协同研发&#xff1f; 阿里巴巴原汁原味的研发协同平台是如何支撑双十一1682亿背后的研发协同&#xf…

html5在线api,HTML5+ API Reference

Push模块管理推送消息功能&#xff0c;可以实现在线、离线的消息推送&#xff0c;通过plus.push可获取推送消息管理对象。方法&#xff1a;对象&#xff1a;ClientInfo: JSON对象&#xff0c;获取的客户端标识信息PushMessage: JSON对象&#xff0c;推送消息对象MessageOptions…

毋庸置疑,容器带来改变!

戳蓝字“CSDN云计算”关注我们哦&#xff01;作者 | 刘晶晶对于飞贷金融科技副总裁陈定玮而言&#xff0c;金融行业数据具有相较于其他行业更为严格的的高标准安全性要求&#xff0c;对容错的要求更为尤甚&#xff1b;此外是否能高效支撑飞贷金融科技的核心业务&#xff0c;尤其…

阿里云发布首款全球智能互联的网络产品——云骨干网

摘要&#xff1a; 12月13日&#xff0c;阿里发布全球首款智能互联的网络产品–云骨干网&#xff08;Cloud Backbone Network&#xff09;。这款产品能够分钟级构建多地域全球网络&#xff0c;并和混合云连成一体&#xff0c;打造具有企业级规模和通信力的智能云上骨干网络。12月…

matlab pca降维_手撸PCA(Python七行代码实现)

直接上代码&#xff1a;x np.random.rand(10,5) #随机生成一组样本 x - x.mean(axis0) # 见详注1 C x.T.dot(x) # 计算自协方差矩阵 lam,v lina.eig(C) # 特征分解&#xff0c;v是 new_index np.argsort(lam)[::-1] # 特征值排序&#xff0c;见详注2 A -v[:,n…

MaxCompute复杂数据分布的查询优化实践

摘要&#xff1a; 2017年中国大数据技术大会于12月7-9日在北京新云南皇冠假日酒店隆重举行, 大会就大数据时代社会各行业的智能化进程和行业实践展开深入讨论。 在12月8日的“大数据分析与生态系统”分论坛上&#xff0c;来自阿里巴巴计算平台事业部的高级技术专家少杰&#xf…

android开源tabview,TabBarView

声明一个TabBarView &#xff0c;同时将ViewPager传递给它&#xff1a;LayoutInflater inflator (LayoutInflater) this.getSystemService(Context.LAYOUT_INFLATER_SERVICE);View v inflator.inflate(R.layout.custom_ab, null);tabBarView (TabBarView) v.findViewById(R.i…

Linux 主机信息 总览

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题&#xff0c;有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注…

AliOS Things异步事件框架Yloop

摘要&#xff1a; Yloop概要 Yloop是AliOS Things的异步事件框架。Yloop借鉴了&#xff0c;libiuv及嵌入式业界常见的event loop&#xff0c;综合考虑使用复杂性&#xff0c;性能&#xff0c;及footprint&#xff0c;实现了一个适合于MCU的事件调度机制。 Yloop概要 Yloop是Al…

这项技术,风头正劲,BAT要力捧!程序员:我彻底慌了...

人工智能离我们还遥远吗&#xff1f;近日&#xff0c;海底捞斥资1.5亿打造了中国首家火锅无人餐厅&#xff1b;阿里酝酿了两年之久的全球首家无人酒店也正式开始运营&#xff0c;百度无人车彻底量产。李彦宏称&#xff0c;这是中国第一款能够量产的无人驾驶乘用车。而阿里的这家…

joi模块验证日期格式_python datetime模块详解

一、datetime模块介绍通过print(dir(datetime))&#xff0c;我们可以看到模块内属性和类&#xff1a;[MAXYEAR, MINYEAR, __builtins__, __cached__, __doc__, __file__, __loader__, __name__, __package__, __spec__, date, datetime, datetime_CAPI, sys, time, timedelta, …

AliOS Things 基于组件化思想的多bin特性

摘要&#xff1a; 今年杭州云栖大会上&#xff0c;AliOS Things正式发布&#xff0c;其中有一个基于组件化思想的多bin特性&#xff0c;这是AliOS Things有专利保护的多bin fota升级解决方案的核心 今年杭州云栖大会上&#xff0c;AliOS Things正式发布&#xff0c;其中有一个基…

case计算机英语,计算机英语常用术语

小编为大家整理了。一起来学习吧!KB:等于1024 ByteMB:等于1024 KBGB&#xff1a;等于1024 MBByte:字节&#xff0c;等于8 bit***8个位的组合&#xff0c;共有256种电路状态***&#xff0c;计算机一个文字以8 bit来表示bit:位&#xff0c;计算机数据最基本的单位&#xff0c;有0…

查看linux是否为虚拟机,以及其它信息,cpu,主机型号,主板型号等

查看属于什么类型主机&#xff1f; dmidecode -s system-product-name物理机&#xff1a; [rootswnode1]# dmidecode -s system-product-name I840-GS虚拟机&#xff1a; [rootgnntdb DbBackup]# dmidecode -s system-product-name VMware Virtual Platform# 总核数 物理CP…

数据库风云:老骥伏枥,新秀辈出

戳蓝字“CSDN云计算”关注我们哦&#xff01;作者&#xff1a;姜洪军“在数据库技术方面&#xff0c;亚马逊落后甲骨文10至20年”。2018年10月23日&#xff0c;甲骨文&#xff08;Oracle&#xff09;创始人、执行董事长拉里埃里森&#xff0c;在甲骨文举办的一次大会的主题演讲…

解读阿里云oss-android/ios-sdk 断点续传(多线程)

摘要&#xff1a; oss sdk 断点续传功能使用及其相关原理 前言 移动端现状 随着移动端设备的硬件水平的不断提高&#xff0c;如今的cpu&#xff0c;内存等方面都大大的超过了一般的pc电脑&#xff0c;因此在现今的程序中&#xff0c;合理的使用多线程去完成一些事情是非常有必…