杭州下城区建设局网站wordpress 加入搜索
杭州下城区建设局网站,wordpress 加入搜索,泰安哪家做网站好,资讯网站建设流程Spark Sql默认并行度
看官网#xff0c;默认并行度200 https://spark.apache.org/docs/2.4.5/sql-performance-tuning.html#other-configuration-options
优化
在数仓中 task最好是cpu的两倍或者3倍(最好是倍数#xff0c;不要使基数) 拓展
在本地 task需要自己设置默认并行度200 https://spark.apache.org/docs/2.4.5/sql-performance-tuning.html#other-configuration-options
优化
在数仓中 task最好是cpu的两倍或者3倍(最好是倍数不要使基数) 拓展
在本地 task需要自己设置cpu就是local[x] x就代表cpu数
在yarn --num-executors 2 --executor-cores 2相乘就代表你的cpu个数根据提交命令
spark-submit \
--master yarn \
--deploy-mode client \
--driver-memory 1g \
--num-executors 2 \
--executor-cores 2 \
--executor-memory 2g \
--queue spark \
--class com.donglin.sparksqltuning.PartitionTuning spark-sql-tuning-1.0-SNAPSHOT-jar-with-dependencies.jar 去向yarn申请的executor vcore资源个数为4个num-executors*executor-cores,如果不修改spark sql分区个数那么就会像上图所展示存在cpu空转的情况。这个时候需要合理控制shuffle分区个数。如果想要让任务运行的最快当然是一个task对应一个vcore,但是数仓一般不会这样设置为了合理利用资源一般会将分区也就是task设置成vcore的2倍到3倍。 可以看出时间快了不少这个需要多次调试找出最优
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/89036.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!