介绍化工项目建设和招聘的网站做的比较早的海淘网站

bicheng/2026/1/17 22:58:28/文章来源:
介绍化工项目建设和招聘的网站,做的比较早的海淘网站,百度服务中心人工24小时电话,政务网站建设合同目录 #x1f436;3.2.1 分区过程 #x1f436;3.2.2 SplitSize计算和分区个数计算 #x1f436;3.2.3 Partition的数目设置 1. #x1f959;对于数据读入阶段#xff0c;输入文件被划分为多少个InputSplit就会需要多少初始task. 2. #x1f959;对于转换算子产生的…目录 3.2.1 分区过程 3.2.2 SplitSize计算和分区个数计算 3.2.3 Partition的数目设置 1. 对于数据读入阶段输入文件被划分为多少个InputSplit就会需要多少初始task. 2. 对于转换算子产生的RDD的分区数 3. 如果指定了spark.default.parallelism在进行shuffle之后的新的rdd会和spark.default.parallelism设置的一致 ​编辑 4. repartition和coalesce操作会聚合成指定分区数。 3.2.4 groupBy不一定会Shuffle 3.2.1 分区过程 每一个过程的任务数对应一个InputSplit,Paritition 输入可能以多个文件的形式存储在HDFS上面每个File都包含了很多块128切分称为block。 当Spark读取这些文件作为输入时会根据具体数据格式对应的InputFormat进行解析按照SplitSize切成一个个输入分片。随后将为这些输入分片生成具体的task. InputSplit与Task是一一对应的关系。 注意:InputSplit不能跨越文件。 随后这些具体的Task每个都会被分配到集群上的某个节点的某个Executor去执行。 每个节点可以起一个或多个Executor. 每个Executor由若干core组成每个Executor的每个core一次只能执行一个task. 每个task执行的结果就就是生成了目标rdd的一个partition. 注意这里的core是虚拟的core而不是机器的物理CPU核可以理解为Executor的一个工作线程。Task被执行的并发度Executor数目*每个Executor核数core总个数 3.2.2 SplitSize计算和分区个数计算 3.2.3 Partition的数目设置 1. 对于数据读入阶段输入文件被划分为多少个InputSplit就会需要多少初始task. 集合 优先等级1指定分区数 优先等级2使用 set(spark.default.parallelism,8) 优先等级3所有的可用核数 文件 根据计算来的任务切片大小和输入路径下的文件大小 ,至少2并行度 数据库 指定的 2. 对于转换算子产生的RDD的分区数 默认和父RDD的分区数一致 有些算子可以调用的时候指定分区个数 distinct groupBy groupByKey 特殊的算子 有特殊规定 union(和) join val rdd3 rdd1.intersection(rdd2) // 取大的 val rdd4 rdd1.subtract(rdd2) // 前面的RDD分区数 println(rdd1.cartesian(rdd2).getNumPartitions) // 两个分区个数乘积 注意: 可能产生Shuffle的算子可以指定分区个数的 //可能产生shuffle的操作 distinct(p) 减少 groupBy(_._1 , p) Shuffle groupByKey( p) Shuffle groupByKey(__, p) Shuffle join( , p) 3. 如果指定了spark.default.parallelism在进行shuffle之后的新的rdd会和spark.default.parallelism设置的一致 package com.doit.com.doit.day0128import org.apache.log4j.{Level, Logger} import org.apache.spark.{SparkConf, SparkContext}/*** 日期: 2024/1/30* Author: Wang NaPao* Blog: https://blog.csdn.net/weixin_40968325?spm1018.2226.3001.5343* Tips: 我是技术大牛* Description:*//** data/orders.txt oid01,100,bj oid02,100,bj oid03,100,bj oid04,100,nj oid05,100,nj */object Test06 {def main(args: Array[String]): Unit {val conf new SparkConf().setAppName(Starting...).setMaster(local[*]).set(spark.default.parallelism, 8)val sc new SparkContext(conf)//设置spark-submit提交程序时不在控制台打印日志信息Logger.getLogger(org.apache.spark).setLevel(Level.WARN)val rdd1 sc.textFile(data/orders.txt)//将rdd1的分区设置为2rdd1.repartition(2)println(rdd1 partition为rdd1.getNumPartitions)//将rdd1按照城市分组val rdd2 rdd1.groupBy(tp{val arr tp.split(,)arr(2)})println(rdd2 partition为rdd2.getNumPartitions)sc.stop()} } 4. repartition和coalesce操作会聚合成指定分区数。 println(rdd1.repartition(3).getNumPartitions) // 增加 println(rdd1.repartition(1).getNumPartitions) //减少 println(rdd1.coalesce(1, true).getNumPartitions) //减少 println(rdd1.coalesce(3, true).getNumPartitions) //增加 // 不允许Shuffle就不能增加分区 println(rdd1.coalesce(3, false).getNumPartitions) //增加失败 println(rdd1.coalesce(1, false).getNumPartitions) //减少 不会Shuffle 3.2.4 groupBy不一定会Shuffle Shuffle上游一个分区的数据可能被下游所有分区引用 package com.doit.com.doit.day0128import org.apache.spark.SparkContext.jarOfObject import org.apache.spark.rdd.RDD import org.apache.spark.{HashPartitioner, SparkConf, SparkContext}/*** 日期: 2024/1/29* Author: Wang NaPao* Blog: https://blog.csdn.net/weixin_40968325?spm1018.2226.3001.5343* Tips: 我是技术大牛* Description:*/object Test03 {def main(args: Array[String]): Unit {val conf new SparkConf().setAppName(doe).setMaster(local[*])val sc new SparkContext(conf)val rdd1 sc.makeRDD(List(a b c d e f g), 2)val rdd2: RDD[String] rdd1.flatMap(_.split(\\s))val wordOne rdd2.map(line{println(aaaaaa)(line,1)}) //2//对数据使用HashPartitioner在分区 2val rdd3 wordOne.partitionBy(new HashPartitioner(3))rdd3.mapPartitionsWithIndex((p,iter){iter.map(e(p,e))}).foreach(println)//底层默认是HashPartition分区 2val rdd4: RDD[(String, Iterable[(String, Int)])] rdd3.groupBy(_._1, 3)val rdd5: RDD[(Int, (String, Iterable[(String, Int)]))] rdd4.mapPartitionsWithIndex((p, iter) {iter.map(e (p, e))})rdd5.foreach(println)sc.stop()} } 结果

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/89407.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

电子商城网站开发价格北京做网站的网络公司

Windows phone的页面布局方式一般是依赖布局控件实现的,而布局控件有三种Grid,StackPanel和Canvas Grid是网格布局方式,相当于一个表格,有行和列,新建一个Windows phone项目,打开MainPage.xaml,…

弄网站赚钱吗wordpress源码系统下载地址

cesium不同版本对3dtiles的渲染效果不同,固定光照的优化方案,避免map.fixedLight true,导致的光照效果太强,模型太亮的问题。 问题来源: 1.Cesium1.47版本加载tileset.json文件跟Mars3d最新版加载文件存在差异效果 Cesium1.47…

做视频怎样传到网站给自己的网站起名字

697. 数组的度 解题思路 首先创建一个IndexMap 键表示元素 值表示一个列表List list存储该元素在数组的所有索引之后再次创建一个map1 针对上面的List 键表示列表的长度 值表示索引的差值遍历indexmap 将所有的list的长度 和 索引的差值存储遍历map1 找到最大的key 那么这个Ke…

常用企业网站模板对比网站数据展示

在Kubernetes环境中,故障排除是管理者日常工作中不可或缺的一部分。随着容器化应用的广泛采用,需要一种高效的方法来诊断和解决Pod内部的问题。本文将重点介绍如何利用抓包技术提升Kubernetes环境中Pod内部故障排除的效率。 为什么需要Pod内抓包 在Kube…

建设一个班级网站的具体步骤网站开发技能证书

洞悉全球汽车产业格局,前瞻业界未来趋势。2023年7月27日-30日,时隔三年,重聚武汉国际博览中心,2023世界汽车制造技术暨智能装备博览会盛大开幕。深耕汽车行业多年的世界汽车制造技术暨智能装备博览会,掀起行业热点新高…

做网站泉州wordpress 前后台都进不去

问题描述 第一种方法 每一行放一个皇后边放皇后边判断是否符合条件递归到第n行&#xff0c;则说明当前方案符合条件&#xff0c;进行遍历 代码实现 #include <cstring> #include <iostream> #include <algorithm>using namespace std;const int N 10;int…

如何申请个人网站怎么把自己的网站推广出去

【SpringBoot实战】基于阿里云实现文件上传 在实际项目开发中&#xff0c;不可避免地会使用到阿里云OSS进行文件存储。尽管阿里云有详细的开发文档&#xff0c;但本篇博客的目的是让我们能够用简明的代码快速实现这个功能。 引入依赖 <dependencies><!-- 阿里云oss…

自己做的网页怎么上传到网站北京网站优化体验

文章目录 一、Tomcat 安装1.1 选择合适的 Tomcat 版本1.2 下载 Tomcat1.3 配置环境变量 二、 运行 Tomcat2.1 启动 Tomcat2.2 关闭 Tomcat 参考资料 一、Tomcat 安装 1.1 选择合适的 Tomcat 版本 Apache Tomcat 是 Jakarta EE&#xff08;正式JavaEE&#xff09;技术子集的开…

做网站多少钱一年二次开发包

今天刷SQL简单查询&#xff0c;大家有兴趣可以刷一下 目录 相关表数据&#xff1a; 题目及思路解析&#xff1a; 总结归纳&#xff1a; 知识补充&#xff1a; 关于LIKE操作符/运算符 LIKE其他使用场景包括 LIKE模糊匹配情况 相关表数据&#xff1a; 1、student_info表 2、sc…

dedecms网站别名解析世界十大软件公司排名

---- 整理自B站UP主 踌躇月光 的视频 1. 全加器 用门电路实现两个二进制数相加并求出和的组合线路&#xff0c;称为一位全加器。一位全加器可以处理低位进位&#xff0c;并输出本位加法进位。全加器比半加器多了一位进位。 1.1 实验 1&#xff1a;通过两个半加器设计全加器 1.…

网站建设合同定义南阳seo长尾关键词

ESP32和ESP8266的ESP-MESH 功能介绍一、介绍ESP-MESH二、安装painlessMesh库三、ESP-MESH基本示例&#xff08;广播消息&#xff09;四、示范 功能介绍 了解如何使用ESP-MESH网络协议通过ESP32和ESP8266 NodeMCU板构建网状网络。 ESP-MESH允许多个设备&#xff08;节点&#x…

公司网站在哪备案logo设计网站官网

https://bbs.espressif.com/viewtopic.php?t75242#p100294 https://blog.csdn.net/ydogg/article/details/72598752

网页设计音乐网站旅游类网站策划建设_

GPT-4 Turbo、功能融合&#xff1a;OpenAI 首个开发者大会回顾 就在昨天 2023 年 11 月 6 日&#xff0c;OpenAI 举行了首个开发者大会 DevDay&#xff0c;即使作为目前大语言模型行业的领军者&#xff0c;OpenAI 卷起来可一点都不比同行差。 OpenAI 在大会上不仅公布了新的 …

网站主题如何自己做资源网站

1.分发简介 RabbitMQ不设置的话默认采用轮询方式分发消息,你一个我一个(公平);但实际生活中,由于处理速度不同,若还采用轮询方式分发会导致处理速度快的空等待,因此我们采用不公平分发 2.不公平分发 在消费者这侧设置即可,以之前的Worker3和Worker4为例 2.1.Worker3 packa…

网站开发主要任务怎么做网站一张图

最新版风车IM通讯iosapph5三端源码及视频教程 1.宝塔环境如下: Nginx 1.20 Tomcat 8 MySQL 8.0 Redis 7 2.放行端口如下&#xff1a; 666 6600 6700 7000&#xff08;用作前端&#xff09; 7001&#xff08;用作后端&#xff09; 3.宝塔数据库添加数据库旁边有个ro…

网站关联词搜索怎么做网站怎么做中英文交互

【User Tech】2024 我们来啦&#xff01; 今年&#xff0c;【User Tech】将更加专注于为社区用户提供技术功能解读、热点答疑&#xff0c;聚焦更丰富、更多样化的行业或使用场景的用户案例。我们期待通过分享更多关于 Milvus Cloud 的实战经验&#xff0c;为大家在 AI、大模型、…

徐州百度快照优化临漳seo整站排名

背景介绍 什么代码覆盖&#xff1f; 代码覆盖(Code coverage)是软件测试中的一种度量&#xff0c;描述程序中源代码被测试的比例和程度&#xff0c;所得比例称为代码覆盖率。简单来理解&#xff0c;就是单元测试中代码执行量与代码总量之间的比率。 Java常用的单元测试覆盖率…

网站建设开发外包公司怎么做网站扫码支付

我自己用C写了一个插件,插件是dll形式的,我的插件式在dll的目录下有个config文件夹,里面是我用json写的插件配置文件,当插件运行的时候我需要读取到json配置文件,所有最重要的就是如何获取dll的路径. 大概就是这么个结构, 我自己封装了一个函数.只适用于window编程,因为里面用…

上海外贸建站商城威海企业网站建设

“最近读了一本不是编程的程序员技能书《软技能-代码之外的生存指南》&#xff0c;全书分为 7 个篇章&#xff0c;分别是职业、自我营销、学习、生产力、理财、健身和精神。在读完职业、自我营销和理财这三个篇章后&#xff0c;让我感触很深&#xff0c;也让我很意外。本来以为…

厦门网站设计公司找哪家厦门小程序建设企业网站报备

通知&#xff01;通知&#xff01;通知&#xff01;&#xff01;&#xff01;玩酷屋十一黄金优惠限时限量秒杀活动&#xff0c;能抢到算你厉害&#xff1a;1、活动期间 2017/10/02 22:30 ——2017/10/05 22:302、【宝宝的物理学】第一辑 原价&#xff1a;189元&#xff0c;秒…