HPC集群调度系统和计算系统

什么是计算云?

        所谓的计算云指的是为计算业务优化的类云基础架构,它强调用云的方式解决计算问题,而不是将“计算”搬到现有的公有云或者容器云上。

目前公有云或者容器云(例如k8s)上的HPC解决方案本质上都是将现有的HPC方案虚拟化或容器化,以虚拟机或容器替代物理机。这些做法是为了将公有云资源卖给计算用户,并没有改进计算业务本身。(公有云只是将资源标准化和虚拟化,对比直接调度物理机只是多个了标准化,但实际上传统hpc 使用cgroup本质上是一样的)

        LSF,SGE、PBS或者SLURM是传统的HPC的调度系统,将它们做成虚拟机部署到公有云,或者做成容器部署到k8s,可以让多种框架共享物理硬件。但是这种共享是静态的。典型的使用方式是:系统管理员在云上或者k8s上拉起一个SLURM集群;用户通过SSH登录到集群,使用传统的方式安装软件、投递任务。这种使用方式得到的好处是什么呢?一是不需要为每个集群单独购买硬件,二是系统管理员的集群部署工作得到了简化,其它方面没有改进。

传统HPC调度系统

        关于目前主流的HPC作业调度系统有:LSF/Slurm/PBS/SGE,他们分别也都有一些衍生版本,所以,有人也将他们称为四大流派。 .

       不同的行业因为使用习惯和不同调度器对应用的支持力度不同,往往有不同的偏好:比如高效和超算经常用Slurm,半导体公司最常用的是LSF和SGE,工业是早kennel用PBS更多一些。

      

640.png

并行作业计算层

一个并行作业会在多个计算节点上,启动应用程序,所有应用程序通过彼此交换信息,相互合作,共同完成计算任务。典型的有历史的并行计算技术有MPI,更现代一些的Hadoop,Spark等也可以归于此类。一般作业只需要一个slot用来计算。在LSF中,一个slot默认对应CPU的一个计算核心(core),但它本身更偏向于一个逻辑概念。因为想不到合适的中文替换,所以沿用英文词。并行作业因为需要同时启动若干程序,会需要更多的slots。这些slots可以跨越机器,所以我们需要更详细的计算节点选择的方式。

LSF和SLM等和spark、hdoop等的区别

        Spark 应用程序需要分布式计算节点,大型内存,高速网络和无文件系统依赖关系,因此 Spark 应用程序可以在传统 HPC 环境中运行。LSF只是做任务的调度和集群资源的分配,Spark还有hdoop这些分布式计算框架是利用分布式文件系统,一起来跑一个mapreduce任务,因此spark是可以做为lsf的一种任务调度的。此时可以说spark集群是不是在lsf集群内部的。

如果你看IBM LSF的说明,是对apache hadoop和spark做了兼容的。

hadoop和spark(提供更多的是用于数据处理和转换的工具)也提供类似的调度能力,但是只针对自己的集群,并且没有lsf调度策略梗多样化,lsf能保证多集群资源利用的全局最优。

https://www.ibm.com/docs/zh/spectrum-lsf/10.1.0?topic=101-job-scheduling-execution

1、https://tech.china.com/article/20210701/072021_817803.html 

2、https://tonguebusy.com/a/yunying/xiaohongshuyunying/2023/0418/18464304.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/10390.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux CentOS监控系统的运行情况工具 - top/htop/glances/sar/nmon

在CentOS系统中,您可以使用以下工具来监控系统的运行情况: 1. top: top 是一个命令行工具,用于实时监控系统的进程、CPU、内存和负载情况。您可以使用以下命令来启动 top: top 输出 2. htop: htop 是一…

【MySQL】数据库基础

今天我们来讲一讲使用MySQL必备的基础知识 目录 一、MySQL的登录选项 二、什么是数据库 三、一些主流数据库 四、 服务器,数据库,表关系 五、mysql的架构 5.1 存储引擎 5.1.1 查看存储引擎 5.1.2 不同存储引擎的对比 六、SQL语言的分类 一、MyS…

IDEA live templates

surround 在SQL的xml里 可以修改变量 官方文档 CDATA not null <if test"$SELECTION$ ! null and $SELECTION$ ! "> and $VAR1$ #{$SELECTION$} </if>not null like mysql <if test"$SELECTION$ ! null and $SELECTION$ ! "> and…

spring-websocket在SpringBoot(包含SpringSecurity)项目中的导入

✅作者简介&#xff1a;大家好&#xff0c;我是 Meteors., 向往着更加简洁高效的代码写法与编程方式&#xff0c;持续分享Java技术内容。 &#x1f34e;个人主页&#xff1a;Meteors.的博客 &#x1f96d;本文内容&#xff1a;spring-websocket在SpringBoot(包含SpringSecurity…

MySQL的变量、流程控制与游标

目录 1.变量的分类 1.系统变量的分类 1.1.二者关系 2.查看系统变量 3.修改系统变量的值 4.用户变量 4.1会话用户变量 1.变量声明与赋值 2.变量使用 4.2.局部变量 1.使用declare 声明 2.局部变量声明格式 3.局部变量赋值 4.变量使用 5.定义条件与处…

微信小程序客服系统-对接消息推送-对接模板订阅消息-嵌入webview客服链接

想要给自己的小程序增加客服系统功能 小程序客服对接导自己的系统等需求&#xff0c;可以参照我开发的客服系统&#xff0c;实现私有化部署搭建对接的微信小程序 小程序消息推送对接 首先登录小程序后台在小程序后台>开发管理>开发设置>服务器域名部分&#xff0c;配置…

IPsec配置工具IP xfrm

IP命令支持IPSec配置&#xff0c;子命令为ip xfrm。命令内容如下&#xff1a; IP-XFRM(8) Linux IP-XFRM(8) NAME ip-xfrm - transform configurationSYNOPSIS ip [ OPTIONS ] xfrm { COMMAND | help }ip xfrm XFRM-OBJECT { COMMAND | help }XFRM-OBJECT : state | policy |…

Sentinel限流中间件

目录 介绍 Sentinel 的特征 Sentinel 的组成 实战使用 简单实例 配置本地控制台 使用可视化ui配置简单流控 配置异步任务限流 使用注解定义限流资源 SpringCloud整合Sentinel 简单整合 并发线程流控 关联模式 整合openFeign使用 介绍 随着微服务的流行&#xff0…

Ansible自动化运维工具

Ansible自动化运维工具 一、ansible介绍二、ansible环境安装部署三、ansible命令行模块1、command模块2、shell模块3、cron模块4、user模块5、group模块6、copy模块7、file模块8、hostname模块9、ping模块10、yum模块11、service/systemd模块12、script模块13、mount模块14、ar…

list源码分析,基于c++ 和vs2019,cpp20标准

list源码分析,基于c 和vs2019&#xff0c;cpp20标准。结构确实如图&#xff0c;双向环形链表。

2、Linux驱动开发:模块_引用符号

目录 &#x1f345;点击这里查看所有博文 随着自己工作的进行&#xff0c;接触到的技术栈也越来越多。给我一个很直观的感受就是&#xff0c;某一项技术/经验在刚开始接触的时候都记得很清楚。往往过了几个月都会忘记的差不多了&#xff0c;只有经常会用到的东西才有可能真正记…

linux部署es+kibana

部署kibana与es 3.4.1、拷贝文件 首先把elasticsearch-7.3.1-linux-x86_64.tar.gz 和kibana-7.3.1-linux-x86_64.tar.gz拷贝到linux上&#xff0c;比如我是拷贝/usr/local 目录下 3.4.2、解压文件 然后分别执行tar -zxvf elasticsearch-7.3.1-linux-x86_64.tar.gz和tar -zx…

python读取json文件

import json# 文件路径(同目录文件名即可,不同目录需要绝对路径) path 1.json# 读取JSON文件 with open(path, r, encodingutf-8) as file:data json.load(file)#data为字典 print(data) print(type(data))

网络安全工程师证书有什么用?什么是网络安全工程师?你想知道的都在这里

随着互联网的发展和大数据时代的到来&#xff0c;网络已经日渐深入到我们生活、工作中的方方面面&#xff0c;社会信息化和信息网络化&#xff0c;突破了应用信息在时间和空间上的障碍&#xff0c;使信息的价值不断提高。但是&#xff0c;与此同时&#xff0c;网页篡改、计算机…

面试题 -- OC基础知识

文章目录 1. #import 跟#include 又什么区别&#xff0c;class呢, #import<> 跟 #import””又什么区别?2. 属性关键字assign、retain、weak、copy3. strong和weak关键字有什么区别4. 什么情况下使用weak关键字&#xff1f;相比于assign有什么不同&#xff1f;5. atomic…

【深度学习】【三维重建】windows11环境配置tiny-cuda-nn详细教程

【深度学习】【三维重建】windows11环境配置tiny-cuda-nn详细教程 文章目录 【深度学习】【三维重建】windows11环境配置tiny-cuda-nn详细教程前言确定版本对应关系源码编译安装tiny-cuda-nn总结 前言 本人windows11下使用【Instant Neural Surface Reconstruction】算法时需要…

小城市当程序员好不好?

在职业发展中&#xff0c;小城市和大城市都有各自的机会和挑战。在大城市&#xff0c;C#的应用比例可能相对较低&#xff0c;学习C可能有一定的难度&#xff0c;而学习Java最好有人指导。在小城市&#xff0c;机会相对较少&#xff0c;跳槽的选择也有限。然而&#xff0c;小城市…

【每日随笔】人为制造稀缺 ( 粮食 | 买房 | 租房 | 钻石 | 教育 )

文章目录 一、人为制造的稀缺资源 - 粮食二、人为制造的稀缺资源 - 买房三、人为制造的稀缺资源 - 租房四、人为制造的稀缺资源 - 钻石五、人为制造的稀缺资源 - 教育 人为制造 稀缺资源 是 暴利 的挣钱方式 ; 本来不稀缺的资源 , 人人都有 , 人人都应该享有的资源 , 人为制造…

WPF实战学习笔记18-优化设计TodoView

文章目录 优化设计TodoView修复新增项目无法编辑问题增加了对完成状态的区分增加了选项卡删除功能更新删除请求URI添加删除命令并初始化UI添加删除按钮更改控制器 增加查询结果为空的图片增加转换器修改UI添加资源、命名空间 添加相关元素 增加了根据状态查询的功能Mytodo.Serv…

Ansible 自动化运维工具

目录 一、概述 1.ansible 简介 2.ansible 特性 3.ansible 架构 二、ansible 环境安装部署 1.管理端安装 ansible&#xff08;192.168.88.10&#xff09; 2. ansible 工作目录 3. 配置主机清单 4.配置密钥对验证 三、ansible 命令行模块 1.command 模块 2.shell 模块…