服务台需要跟踪的3个重要指标MTBF+MTTF+MTTR

衡量标准是IT服务管理的核心,可提供有关运营的见解,并帮助确定需要持续改进的领域。通常的服务台指标有助于展示内部运营效率。例如,衡量在规定时间内解决问题的工单数量的 SLA 是展示服务台效率的关键因素。另一方面,故障指标可帮助团队找出 IT 基础设施中的薄弱环节,并帮助评估对故障事件的响应。这有助于 IT 团队最大限度地减少故障可能对关键系统造成的连带影响。

IT服务管理

需要跟踪的关键失败指标是什么?在本文中,我们将看到探讨以下三个关键绩效指标:

1、平均无故障工作时间(MTBF)

当 IT 基础设施资产(无论是网络、服务器还是工作站等)频繁发生故障时,会对 IT 和业务服务的可用性产生连带影响。这些中断会导致收入和声誉的损失。如果某项 IT 资产经常出现故障,通常需要进行维修或更换。在此之前,调查并了解资产经常宕机的原因,以及是在什么情况下宕机,有助于制定资产维护计划,提高系统可用性。

平均无故障工作时间(MTBF)是帮助确定宕机原因的指标,有助于减少宕机时间或制定快速恢复计划,提高 IT 系统的可用性。如果某项 IT 资产的 MTBF 很低,就意味着该资产会经常停机,导致 IT 和业务中断。

MTBF 示例

在一家企业中,每当应用新的 Windows 固件更新时,存储驱动器的新更新总是失败。这种情况发生了几次,平均无故障工作时间变得越来越短。在对问题进行分析后,团队确定是第三方驱动程序导致执行更新所需的 API 无法实施或存在故障。当计划进行新的更新时,如果第三方驱动程序没有实施必要的 API,有两种可能的解决方案可供探索。比如将 API 与 SATA 和 NVMe 存储协议的 Windows 替代方案进行交换,或从原始设备制造商处获取新的、更好支持的驱动程序版本,都有助于实施更新、修复漏洞并堵塞安全漏洞。监控和跟踪驱动程序升级以及停机时间都有助于提高存储驱动器的可用性。

如何提高 MTBF

实施观察资产健康状况的流程,以跟踪和监控故障,有助于找出故障原因。

分析问题的根本原因,以提高认识、解决长期原因并提高资产性能。

制定快速反应战略,有效解决并减少影响运营的停机时间。目标是减少停机次数,延长停机时间。

2、平均失效前时间(MTTF)

资产经常出现故障会中断企业的 IT 运营,导致 IT 基础设施性能下降。MTTF 指标有助于确定资产、设备或组件的使用寿命。对于 MTTF 较低的 IT 资产和组件,通常更换 IT 组件比修复组件更省时,并能最大限度地降低运营影响和成本。

这尤其适用于与基础设施关键运行元素(如大型机服务器堆栈或网络接入点)相关联的 IT 组件。如果资产的 MTTF 不理想且经常出现故障,则表明 IT 资产不可靠,需要频繁更换,以免影响 IT 运营。

MTTF 示例

在一家 IT 软件开发公司,当数据和网络服务器堆栈中的交换机连接或断开电缆时,网络电缆就会松动、断开或损坏。由于数据传输中断,导致文件损坏。网络团队的进一步分析表明,CAT6 RJ45 跳线上的无卡塑料盖不断断裂。这是因为电缆是从使用廉价材料的制造商那里采购的。随后,IT 团队用质量更好的电缆替换了旧电缆,以确保今后移动电缆时不会出现数据丢失或损坏等问题。这是一个典型的例子,但定期跟踪电缆的 MTTF 有助于 IT 团队了解关键资产(如组件)的影响,从而就维修和更换做出明智的决策。

如何提高 MTTF

通过采购高质量的资产和停用低质量、低成本的资产来延长资产的使用寿命。

通过定期检查与关键资产相关的组件,防止大规模中断业务运营。

实施及时库存流程,估算资产的运行时间,从而降低资产存储的间接成本。

3、平均修复时间 (MTTR)

当关键 IT 系统发生故障时,IT 团队必须尽快恢复系统运行。延迟恢复 IT 系统会导致收入损失并影响关键业务运营。一个组织良好的恢复和响应系统可以帮助 IT 团队应对计划外停机,并有效地恢复运行。MTTR 衡量的是修复资产或排除故障并使其恢复运行能力所需的平均时间。

停机成本随着 MTTR 的增加而增加。MTTR 高说明恢复和响应操作不够迅速有效。系统故障是不可避免的,但 MTTR 能让团队对资产故障做出及时和战略性的反应。

MTTR 示例

一家软件公司正在开发的一款视频游戏因代码漏洞而遭到零时差攻击。这次攻击破坏了 Wi-Fi 和监控系统等操作。这导致攻击者访问了组织的网络域和机密业务文件。网络安全团队告知员工有关零日攻击的信息,以及他们可以在哪里报告这些攻击。该组织的所有 IT 资产都配备了下一代杀毒软件 (NGAV)。这次攻击导致局域网和员工自助服务门户瘫痪,使组织的运营陷入瘫痪。在攻击发生后一小时内,网络安全团队得到了 NGAV 的通知和帮助,NGAV 利用威胁分析和用户行为模式,识别出了可疑活动。网络安全团队立即运行补丁管理脚本,修正了代码中的漏洞,并锁定了内部网络,以避免进一步影响运营和数据窃取。

如何降低 MTTR

通过识别瓶颈、指定资产维修或更换,实行高效的资产管理战略,有助于推动更好的决策,还能够可以节省资金和存储空间。

明确技术人员的责任和角色,简化事故检测和解决流程。

为技术人员提供详细的标准操作程序,以减少停机期间的误传和混乱。

使用集中管理资产维护和监控信息的企业资产管理解决方案来衡量 MTTR。这还有助于优化资产利用率、收集资产数据和预测可能的停机时间。

结语

这些指标可帮助团队识别运营中的瓶颈及其对事件的响应能力,它们通过准确定位持续性事件的根本原因,帮助 IT 团队实现更高的运营效率。IT 团队可以清楚地了解 IT 运营受到影响的领域,从而改进其事件响应策略。企业可以将这些指标作为关键绩效指标而不仅仅是绩效目标来实施。这些指标指出了流程简化和运营改进的领域,而不仅仅是要达到的目标。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/166831.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

阿里云服务器(vgn7i-vws) anaconda(py39)+pytorch1.12.0(cu113)

安装anaconda 2022 10 py3.9 wget https://repo.anaconda.com/archive/Anaconda3-2022.10-Linux-x86_64.sh sha256sum Anaconda3-2022.10-Linux-x86_64.sh #校验数据完整性 chmod ux Anaconda3-2022.10-Linux-x86_64.sh #添加执行权限 bash Anaconda3-2022.10-Linux-x86_…

ate测试原理及ate测试系统(软件)知识科普 -纳米软件

ATE(Automatic Test Equipment)测试也叫自动化测试,通过计算机控制测试仪器对被测对象进行测试。以计算机编程代替人工测试,基于测试程序控制仪器并对待测品进行输入和输出信号检测分析,从而判断待测品的性能是否符合要求。 ATE测试需要根据测…

linux进程调度(一)-进程概述

一、什么是进程 进程是指计算机已运行的程序。程序本身只是指令、数据及其组织形式的描述。进程就是一个程序的执行实例,也就是正在执行的程序。在linux操作系统的中,进程就是一个担当分配系统资源CPU时间、内存的实体。进程控制的主要功能是对系统中的所…

Kafka报错under-replicated partitions

1 under-replicated partitions异常原因 Kafka报错under replicated partitions意味着某些分区的副本数量未达到预期的复制因子。 主要有两种原因, Broker故障 如果某个Kafka Broker发生故障,导致其中一些分区的副本不再可用,那么这些分区就…

2023年微软开源八个人工智能项目

自2001年软件巨头微软前首席执行官史蒂夫鲍尔默对开源(尤其是Linux)发表尖刻言论以来,微软正在开源方面取得了长足的进步。继ChatGPT于去年年底发布了后,微软的整个2023年,大多数技术都是面向开发人员和研究人员公开发…

Towhee介绍

官方网站:Towhee | Home - Towhee Towhee 是一个尖端框架,旨在通过使用基于大型语言模型 (LLM) 的管道编排来简化非结构化数据的处理。它具有独特的优势,可以从各种非结构化数据类型(包括冗长的文本、图像…

浅谈进程与线程

文章目录 一. 进程🍎什么是程序?什么是进程?🍋程序的并发性和并行性🍉进程诞生的原因🍑PCB 二. 线程🍥什么是线程?🍦为什么引入线程? 三. 进程与线程的区别与…

HarmonyOS 设备管理开发:USB 服务开发指导

基本概念 USB 服务是应用访问底层的一种设备抽象概念。开发者根据提供的 USB API,可以获取设备列表、控制设备访问权限、以及与连接的设备进行数据传输、控制命令传输等。 运作机制 USB 服务系统包含 USB API、USB Service、USB HAL。 图 1 USB 服务运作机制 ●…

【SpringBoot3+Vue3】五【完】【实战篇】-前端(配合后端)

目录 一、环境准备 1、创建Vue工程 2、安装依赖 2.1 安装项目所需要的vue依赖 2.2 安装element-plus依赖 2.2.1 安装 2.2.2 项目导入element-plus 2.3 安装axios依赖 2.4 安装sass依赖 3、目录调整 3.1 删除部分默认目录下文件 3.1.1 src/components下自动生成的…

JeecgBoot3.5漏洞升级—快速文档

近几年来,黑客攻击行为呈现出日益复杂和隐蔽的趋势,对个人和组织的安全造成了严重威胁。黑客们不断寻找新的漏洞和安全漏洞,利用各种手段进行网络攻击,包括恶意软件、网络钓鱼、勒索软件等。因此,我们每个人都需要关注…

Windows系统下载并安装 Windows PowerShell

PowerShell下载地址 一 windows7 版本 **若要确定您正在使用的 Microsoft PowerShelll 版本,请在 Windows 7 或 Windows Server 2008R2 或 Windows Server 2012 计算机上执行以下操作: 单击“开始”,单击“所有程序”,单击“附件”,单击“Windows PowerShell”,然后单击…

渲染农场渲染一分钟动画需要多少钱?需要渲染多少时间?

现在很公司都开始使用渲染农场渲染动画,但是还是有很多人不知道渲染农场渲染动画需要多少钱,需要渲染多少时间。在这篇文章中我们将为你一一解答,为你提供一个清晰的参考。 渲染农场的收费通常是按照渲染的使用时间收费,渲染十分…

华大基因助力乌兹别克斯坦精准医学发展,共筑健康丝绸之路

今年上半年,中国与中亚五国元首齐聚陕西西安,举办中国-中亚峰会。过去的20年里,中国已经成为中亚国家的主要投资来源国,总投资额接近400亿美元。乌兹别克斯坦是中国-中亚合作机制的重要参与者,乌…

elasticsearch命令大全

1、查询全部索引 GET /_cat/indices?v2、要按文档数对所有索引进行降序排序 GET /_cat/indices?v&hindex,docs.count&sdocs.count:descv:参数用于显示列标题 h:参数用于指定要显示的列 s:参数用于指定按哪一列进行排序 desc&…

CAD随机多面体_圆柱试件3D插件

插件介绍 CAD随机多面体_圆柱试件3D插件可用于在AutoCAD软件内生成随机三维多面体及外侧圆柱体试件。插件可确保多面体之间不发生干涉,且多面体与外侧圆柱体试件之间保持适配关系,确保生成的模型导入有限元软件后几何合理有效。本插件主要可应用于三维混…

讲概念谈愿景AI Agent名不副实?看实在智能RPA Agent智能体如何落地!

OpenAI在首届开发者大会上推出了GPTs和Assitant API,不仅改写了AI Agent的构建范式,也把AI智能体的应用推向一个新高潮。GPTs和GPT商店,使得用户无需编码通过自然语言就能创建并拥有多个专属私人助理,且可以如在苹果应用商店一样在…

开发教育APP的意义

开发教育APP的意义有以下几点: 促进教育资源发挥效果:通过教育APP软件开发,可以让现代教育资源有效合理的进行利用,并且能够更进一步的提升发挥功能,促进教育资源全面发挥其具体作用和效果,从而提升教育行…

3.3.1详解linux内核链表list_head及其接口应用

文章目录 1 list定义2 list接口2.1 list初始化方法1:定义并初始化链表方法2:先定义再初始化链表2.2 list_add2.3 list_del2.4 list_replace2.5 list_move2.6 list_splice3 list遍历3.1 list_entry3.2 list_first_entry3.3 list_last_entry3.4 list_first_entry_or_null3.5 li…

Y-MODEM协议定制上位机

最近在使用N32G031和STM32F10X系列单片机进行IAP,使用的是Ymodem协议。单片机上的软件已经完成了,一般是使用secureCRT这样的工具作为上位机来进行测试,后来想做一个定制化的简单的上位机。在网上找了下资料,以下这篇文章写的使用…

浅谈安科瑞无线测温设备在挪威某项目的应用

摘要:安科瑞无线温度设备装置通过无线温度收发器和各无线温度传感器直接进行温度值的传输,并采用液晶显示各无线温度传感器所测温度。 Absrtact:Acre wireless temperature device directly transmits the temperature value through the wireless temp…