spark基础内容总结

spark是master-worker结构的,master负责资源调度,类似RM,worker掌握所在节点的信息,类似于NM。

执行时候物理结构分为driver-executor,
driver负责执行mian方法,将程序转为job;负责在executor之间调度任务;负责在UI上展示运行情况
executor是一个工作节点,负责在spark作业中运行任务,并返回任务信息给driver,任务键互相独立,通过自身的blockManager为用户应用程序中要求缓存的rdd提供内存式存储,rdd存在executor内,因此运行快。

分别从逻辑结构和物理结构上阐述spark中任务划分方式。
逻辑结构:
job-stage-rdd
1个action算子划分为一个job(例如count)
1个宽依赖划分为一个stage(例如group by 、join 向上合并),1个stage的计算可能被分配到多个task上执行,但是一个task只能计算一个stage的逻辑
1个算子生成一个rdd
1个stage可能有多个rdd组成,具体看算子类型

物理结构:master-worker-driver-executor-task
task是spark的最小执行单元,一个executor可能同时运行多个task

**

spark常见参数设置原则:

**
1.核数设定 set spark.executor.cores=3
cpu核数一般设置为2-4,cores代表的是并行度,一般起码要2以上以充分使用cpu资源的并行特性。

2.内存设定 set spark.executor.memory=12G-20G
内存可根据集群资源情况设定,设定原则是memory/cores=4G,如果遇到部分task spill情况可以适当调整比例值,增加单核分配到的内存以避免spill

3.executor数量设定
set spark.executor.instances=xxx
executor设置原则一般需要根据数据量来确定,数量设置为总数据量/(coresexecutors) =300-500MB
一般来说,可以将 spark.executor.instances 参数值设置为集群中 Worker 节点数量的 2 到 3 倍
**cores
executors 计算的是 Spark 应用程序可以同时运行的 最大 Task 数量**
set spark.sql.shuffle.partitions=100;设置的是shuffle阶段的并行度,但是这个值一般不设定固定,存在数据倾斜时候用以下参数更合适。

一般来说shuffle阶段会设置
set spark.sql.adaptive.shuffle.enabled=true;
set spark.sql.adaptive.shuffle.targetPostShuffleInputSize=
10GB,具体数值根据计算资源情况以及任务情况设定,最大不能超过单个executor分配的内存容量
argetPostShuffleInputSize参数的作用:
指定了每个 Reducer 读取 Shuffle 输出的目标数据量。
Spark 会尽量将每个分区的输出数据量控制在这个目标值附近,以避免数据倾斜和提高并行度。

对于资源密集型任务,可以适当提高 spark.executor.instances 参数值。
资源密集型任务对 计算资源的利用率 较高,通常需要多个 CPU 核、大量内存和高带宽网络。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/709284.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode # 206. 反转链表

206. 反转链表 题目 给你单链表的头节点 head ,请你反转链表,并返回反转后的链表。 示例 1: 输入:head [1,2,3,4,5] 输出:[5,4,3,2,1] 示例 2: 输入:head [1,2] 输出:[2,1] 示例…

Java SpringBoot 获取 yml properties 自定义配置信息

Java SpringBoot 获取 yml properties 自定义配置信息 application.yml server:port: 9090servlet:context-path: /app第一种方法 HelloController package com.zhong.demo01.controller;import org.springframework.beans.factory.annotation.Value; import org.springfram…

qt5与qt6的cmake区别

文章目录 使用cmake构建qt项目,坑很多。一是本身就麻烦,二是,确实坑,因为不同的qtcreator版本,选了不同的kits(套件) 生成的CMakeList.txt文件也不一样。 如果可以的话都选择Qt6的相关选项&…

人工智能到深度学习:药物发现的机器智能方法(综述学习)

Artificial intelligence to deep learning: machine intelligence approach for drug discovery - PubMed (nih.gov) 人工神经网络、深度神经网络、支持向量机、分类和回归、生成对抗网络、符号学习和元学习是应用于药物设计和发现过程的算法的例子。人工智能已应用于药物设计…

【Spring】回顾反射机制

一、分析方法四要素 package org.qiu.reflect;/*** author 秋玄* version 1.0* email qiu_2022aliyun.com* project Spring* package org.qiu.reflect* date 2022-11-11-17:26* since 1.0*/ public class SomeService {public void doSome(){System.out.println("public …

森林监测VR虚拟情景再现系统更便利

AI人工智能技术已经逐渐渗透到各个领域,为我们的生活带来了诸多便利。在虚拟仿真教学领域,AI技术的应用也日益丰富,为虚拟情景交互体验带来了前所未有的好处。 提高VR虚拟情景的逼真度 通过深度学习和计算机视觉等技术,AI/VR虚拟现…

Vue3 + xterm + eventSource

xterm 是一个使用 typescript 编写的前端终端组件&#xff0c;可以在浏览器中实现一个命令行终端应用&#xff0c;通常与 websocket一起使用。 一、安装 pnpm install xterm or yarn add xterm or pnpm install xterm二、代码实现: 实现日志展示 <template><a-modal…

从 0 到 1 搭建亿级商品 ES 搜索引擎

建设并维护一个亿级的搜索引擎并非易事&#xff0c;也不存在一劳永逸的最优治理方法。本文是在实践中不断学习和总结的成果&#xff0c;介绍了如何搭建一个可支持从千万级到亿级商品量级的搜索系统&#xff0c;并实现查询总 QPS 从百级增长到千级&#xff0c;写入总 QPS 从百级…

jvm中的cms垃圾回收器和G1垃圾回收器有什么区别

JVM&#xff08;Java虚拟机&#xff09;中的CMS&#xff08;Concurrent Mark-Sweep&#xff09;垃圾回收器和G1&#xff08;Garbage-First&#xff09;垃圾回收器是两种不同的垃圾回收器&#xff0c;它们在处理内存管理和垃圾回收时有一些区别。 工作原理&#xff1a; CMS&…

androidapp的开发流程,王者笔记

昨天去面了一家公司&#xff0c;价值观有受到冲击。 面试官技术方面没的说&#xff0c;他可能是个完美主义的人&#xff0c;无论什么事情到了他那里好像都有解决的方案&#xff0c;我被说的无所适从&#xff0c;感觉他很厉害。 但我不能认可的是&#xff0c;面试官觉得加班是…

nextjs13如何进行服务端渲染?

目录 一、创建一个新项目 二、动态获取后端数据进行服务端渲染出现的问题 三、nextjs13如何进行服务端渲染 nextjs13是nextjs的一个重大升级&#xff0c;一些原本在next12当中使用的API在nextjs13上使用十分不便。本文将着重介绍在nextjs13及以上版本当中进行服务端渲染的方…

Linux - 基本指令

1、ls 指令 语法&#xff1a;ls [选项][目录或文件] 功能&#xff1a;对于目录&#xff0c;该命令列出该目录下的所有子目录与文件。对于文件&#xff0c;将列出文件名以及其他信息。 常用选项&#xff1a; -a 列出目录下的所有文件&#xff0c;包括以 . 开头的隐含文件-l …

Docker本地部署GPT聊天机器人并实现公网远程访问

文章目录 前言1. 拉取相关的Docker镜像2. 运行Ollama 镜像3. 运行Chatbot Ollama镜像4. 本地访问5. 群晖安装Cpolar6. 配置公网地址7. 公网访问8. 固定公网地址9. 结语 前言 随着ChatGPT 和open Sora 的热度剧增,大语言模型时代,开启了AI新篇章,大语言模型的应用非常广泛&…

最新消息【沃尔玛不再接受“完全通知”审核报告】

沃尔玛&#xff08;Walmart&#xff09;于2024年2月12日发布公告&#xff0c;自2024年8月1日起&#xff0c;沃尔玛道德采购将不再接受“完全通知&#xff08;Fully Announced&#xff09;”的审核报告&#xff0c;仅接受突击&#xff08;unannounced&#xff09;审核报告或半通…

Linux Shell脚本练习(一)

一、 Linux下执行Shell脚本的方式&#xff1a; 1、用shell程序执行脚本&#xff1a; a、根据你的shell脚本的类型&#xff0c;选择shell程序&#xff0c;常用的有sh&#xff0c;bash&#xff0c;tcsh等 b、程序的第一行#!/bin/bash里面指明了shell类型的&#xff0c;比如#!/…

Matlab: Introduction to Hybrid Beamforming

文章目录 来源混合波束赋形的基本概念System Setup关键函数 来源 在matlab的命令行输入 doc hybrid beamforming 混合波束赋形的基本概念 混合波束形成简介 本例介绍了混合波束形成的基本概念&#xff0c;并说明了如何模拟这种系统。 现代无线通信系统使用空间复用来提高散…

讲述微信小程序 sitemap.json 索引作用配置

做过pc端国内网址的朋友 对SEO这个词不会陌生 主要就是通过条件搜索网址 目前 我们小程序也有这样的功能提供 那么 因为我们百度seo优化的处理程度不同 被搜索出来的东西 会进行一个先后顺序的排序 那么 我们小程序的 sitemap.json 就是用来配置 我们小程序 是否允许被微信索…

mac终端操作

macOS ls 显示当前目录的所有文件夹 cd cd .. 进入jupyter notebook

java小记(1)

从java8开始&#xff0c;接口可以拥有默认的方法实现。 接口的成员(字段 方法)默认都是 public 的&#xff0c;并且不允许定义为 private 或者 protected。 一个类可以实现多个接口&#xff0c;但不能继承多个抽象类。 重写&#xff1a;指子类实现了一个与父类在方法声明上…

Flutter 多标签页显示 有关TabController需要知道的知识

背景 很多应用都需要导航栏加多个标签页的方式来构建一个多页显示逻辑&#xff0c;比如购物软件常有&#xff1a;已完成&#xff0c;已发货&#xff0c;待付款三个顶部导航按钮&#xff0c;点击则下面的页面显示不同属性的订单 正文 在flutter中&#xff0c;实现这样的功能需…