中立分析腾讯云故障相关的事件

最近腾讯云的故障,让一堆云计算爱好者兴奋地远看指点江山、近看沐猴而冠。我比这群爱好者们更了解云计算,但是我尊重我的读者,你们从我这里看到的科普信息,不仅仅只有情绪价值。

在信息爆炸的时代,大家关注和信任某个媒体,媒体作者就应该帮读者筛选出更可信、更有学习意义的信息。本文的前两章内容解释清楚了故障范围,中间两章介绍IaaS和PaaS的产品分类是有意义的;最后的部分是希望读者们少看点口嗨新闻、少嚼点陈年烂梗。

本文的目录为:

  1. 我拿到的故障现象

  2. 实际故障范围不大

  3. 感谢老铁的PaaS云证据

  4. 客户该做多云冗余

  5. 口嗨新闻没有用途

  6. 陈年烂梗之服务状态页

  7. 陈年烂梗之系统盘丢数据

1bb3de7f1901d60123877c053a13a117.gif


1. 我拿到的故障现象

首先,无论哪次云厂商故障,我都是先找真实的故障现象,然后才有资格发表意见。我从个人渠道确认,也看了腾讯云的公开通告,本次的故障现象就是API系统崩了,导致一堆PaaS云产品业务中断了。

  • API控制面大范围故障,比如控制台、云函数、微服务、文字识别、验证码等等服务都出现了严重的业务中断。

  • 不依赖API的数据面业务未出现故障,比如运行中的云主机、VPC、云磁盘等等。

  • 使用独立API系统的对象存储没受影响,CDN下载和直播客户端拉流不需要鉴权也不会受影响,大型视频客户有预授权额度也不受影响。

本次故障的发生时间很重要,公告里承认是15点20分发生故障,16点大部分恢复,有一个上海疑难节点拖到17点恢复。这种故障最大的伤害是无法使用API做查询和变更,本次故障的时间段客户很少有业务变更,让客户业务侥幸躲过了大部分故障,大部分客户是被控制台故障和API监控失败惊吓和误导了。

在腾讯云的公开通告中发布了一张“全云流量趋势图”,此图也可以作为参考佐证,从此图可以推测出,10-18点的客户需求非常稳定,相比其他时段,客户较少有调整资源的需求。

136f164a7d71eff85c029a6ad16ade01.png


2. 实际故障范围不大

这次云故障似乎是“天塌地陷的危险”外加“万众瞩目的狂欢”,但这只是读者的错觉,这种故障对腾讯云的舆论影响比真实业务影响更大

  • 首先,因为本次故障不涉及数据面,运行中的云主机、容器、云磁盘、VPC等IaaS云产品,并没有受到影响。

  • 其次,虽然IaaS云产品的管控功能会因故障而中断,极大地影响了客户的弹性伸缩需求,但是故障时间是15-16点(或严谨说是15-17点),用户一般不会在该时间段大规模申请和释放资源。

  • 再次,CDN可以绕过大部分鉴权故障,因为HTTP下载和直播拉流(客户端观看)都不需要鉴权。大客户做主播端推流也是设置批量并发额度,不超过额度也不会调用鉴权API,而15-17点不会出现业务量超额的情况。

  • 最后,这故障最大的影响是控制台和API系统。控制台故障报错,会吓到用户;API鉴权失败会导致客户的监控系统大批量误报,可能会因为误报而触发不必要的业务迁移。

本次故障主要影响的是CDN强制更新缓存、以及每次开播都鉴权的小视频客户。这次故障会导致“云函数、微服务”等计算类PaaS产品彻底停摆,各大云厂商的长期目标也是推广这几类计算型PaaS云产品,但是,这类产品现在还没有那么大的产品影响力,其最大的价值就是让开发者拿来学习实践。

对象存储使用了独立的鉴权系统,并不受故障影响。腾讯云的公开通告中提及,对象存储的调用次数趋势,在15-16点有目测10%的下跌,这并不是说对象存储也存在服务中断,而是被其他业务的故障牵连导致轻微用量下降;那些坚持没跌的90%存储调用次数,更是在证明大量的客户业务依旧正常工作。

bffafe18ce157d62072788ee241b1cec.png


3. 感谢老铁的PaaS云证据

这次腾讯云的故障和去年的杭州云故障,都让我体验到了一种“感谢道友,以死帮我证道”的舒爽,我给他们做辟谣科普,也是在验证我坚持的道理:

云厂商对IaaS云和PaaS云产品做分类,不是为了概念炒作,而是对产品设计、技术实现、客户包装乃至故障炸窝都有指导意义。我的新书《云计算行业进阶指南》(审批完结,在走印刷流程)有一个章节专门介绍IaaS和PaaS的分类方法,IaaS云产品以“规格和能力上限”为计量单位,PaaS云产品以“软件可识别的用户行为次数”为计量单位。

当云产品遭遇API系统崩溃(或者鉴权异常)故障时,因为IaaS云产品只需要API来管控业务变更,而PaaS云产品的每一个业务步骤都需要经过API系统,这导致两类产品的故障表现存在明显差异。

但是,我也需要硬核证据来证明我的主张有可信度。半年内两次典型又知名的云故障,几乎就是按照我对PaaS云产品的定义做定向爆破。上次我为了表示感激之情,公开给杭州云写辟谣文章,这次我也要公开给腾讯云做一次辟谣。

df23dc26e1b88bc6f39bd8742badfc3d.png


4. 客户该做多云冗余

没有不出故障的云产品,但客户业务部门不允许本司技术部门以“云厂商出故障”为理由中断业务服务。客户技术部门只能在故障发生前做好冗余设计,在故障发生时有快速切换预案,这才是最理性务实的选择。

在客户做云服务监控和多云冗余的工作中,IaaS和PaaS云产品也有明显的差异。

  • IaaS云可以通过AZ(可用区)来实现云内故障隔离,但PaaS云产品没有AZ的概念,这让客户只能用多云冗余来规避PaaS云产品故障。

  • IaaS云向云厂商开放了大量的监控信息,但PaaS云只露出简单的API接口,这让客户很难对PaaS云产品的真实可靠性做监控。

  • IaaS云做业务迁移有复杂的步骤,但PaaS云的业务迁移很容易,甚至可以将多云切换的权限下放给客户端SDK。

客户并不太关PaaS云产品的后台技术说明和故障改进规划,因为客户没有任何鉴定和监控手段,各种故障后的复盘悔改,都只是无法证伪的商务礼仪。各种对PaaS云产品的“头脑风暴+环境设定+思维博弈”读起来很爽,但实际上毫无价值,客户做好PaaS云产品的多云冗余才是唯一可信的保障。

4b3971721812a3bc53ff5a9b192f2600.gif


5. 口嗨新闻没有用途

每次云厂商故障,很多云计算爱好者都兴奋的像在过年。云厂商出故障了应该被嘲笑,但各位读者看这些口嗨新闻能获得什么有用途的信息哪?这些口嗨新闻里到处都是空洞的“劲爆和焦虑”,但是这些爱好者连故障现象都说不清楚,还会影响读者对现象和本质的判断。

这些口嗨新闻只是一个舆情事件,并不会影响到云厂商的销售经营。这些偶发故障只会影响这两周内的新客户签单测试的过程,并会导致极少数专业小客户迁移到友商云(然后等促销或者友商出故障时再切回来)。

云计算从业者无法从那些口嗨文章中学到任何技术建议,因为脱离实际生产环境的口嗨是没有价值的。IaaS云产品的生产环境相对雷同,所以IaaS技术的精进方向还有趋同进化,但是PaaS云产品并没有统一的技术路线。

计算机工程师也无法从这些口嗨新闻中学会任何解题思路,反而会产生“我行我也想上”的浮躁情绪。云厂商每次出故障,我都会做上一段时间头脑风暴,想想有哪些改进方案。但我从不公开发表意见当懂王,因为在架空环境里谈IT技术方案,这是在炫耀自己的无知。

ccc67a69974e106c5a4683d5b3939d9b.gif


6. 陈年烂梗之服务状态页

因为云计算爱好者们写口嗨新闻时知识储备匮乏,他们骂云厂商翻来覆去就那么几个事。这其中第一个烂梗是,服务健康状态页,这个烂梗很缺德。

每当云厂商出故障时,就会有云计算爱好者谈“云厂商怎么都不做服务健康状态页面”。我并不认可这种产品建议,先谈一下大致原因:

  • - 各产品线有自己的API状态接口,如果客户没用好产品线自己的状态查询接口,这是包装培训问题不是产品设计问题。

  • - 如果你是客户的技术工程师,你会如何使用这个汇总状态页?这是个轻度参考还是重度依据?乱加内容是在增加客户的用云难度。

  • - 现在有个多产品线公摊的API和鉴权认证系统,就已经频繁出现全平台故障了;再新增个多产品线共同维护的状态页,是嫌弃误报漏报还不够多吗?

  •  - 状态页面不是什么新功能,2014年就有友商大肆宣传这个功能了。但无论灯塔云还是国内云,都是没有客户使用,才导致这个功能逐渐荒废了。

我并不反感朋友们给云厂商提出的善意建议;我也不反对云厂商再去折腾一下这个荒废功能,“缓解客户的质疑焦虑”也是一种产品效果;我甚至不反感爱好者们反复呱噪这个状态页,因为这在证明他们的无知。但我明确说,做状态页就是在敷衍孩子。各位读者别老看各种《云厂商居然不知道做个状态页》的呼吁文,这种呼吁没有价值,你们应该找找有没有人写出过《亲身实践!使用服务健康状态页的实战心得》。

我真正反感的是,一些云计算爱好者在写口嗨文章时,“裹胁式引用”一些善意的建议。你们和云厂商吵架博出位,是自己愿意承担对应的敌视风险的。但你们在恶意骂战的语境下,反复大喊“某某大佬也提出过相同的建议”,这就是强行拉旁观者站队,让旁观者善意且随口提出的建议, 变成了你们和云厂商吵架时的证据。这样做真得很缺德,也容易没朋友。

b0c9ca8fac453419c30fe07c4a89e5e8.gif


7. 陈年烂梗之系统盘丢数据

因为云计算爱好者们写口嗨新闻时不了解历史事件,他们骂云厂商翻来覆去就那么几个事。这其中另一个陈年烂梗是,前Y数控丢数据。

每当爱好者们提到这个陈年烂梗时,似乎在和“可怜的客户”同呼吸共命运。但这个烂梗里根本就不存在客户,爱好者们每次提这个烂梗,都是给前Y数控增加被倒查深扒的风险

腾讯云当年最大的失误不是丢系统盘的数据,而是公开故障细节给看客们找攻击挑刺的谈资。我是真佩服这个前Y数控,既要毁了自己的融资渠道,也要毁了自己技术团队的声誉,就为了“按闹分配+试试运气”。

  • * 一个IT科技公司连续八个月才消费3569元,请问他能买多少云资源开展业务?我在2016年就开始教风投们如何解析IT类创业团队的资源采购账单了,就这种用云量信息,能找到IT技术圈的投资吗?(依稀记得,这是一家大数据技术公司,重要数据都放在腾讯云上,但网上已经搜不到该公司的详细信息了)。

  • * 一个技术创业企业,将价值上千万的核心数据放在系统盘里,还没任何备份。这个工程师和CTO的履历上,敢明着写上这一段“给公司创收”的神奇经验吗?

  • * 2018年云厂商丢系统盘的数据,有什么值得大惊小怪的?在2018年,即是AWS的EC2,也不保证系统盘不丢数据,而是建议客户将数据存在云盘或者对象存储。

我们当然为腾讯云的遭遇而感到幸灾乐祸,因为“这么弱鸡的理由居然能成功碰瓷……”。但不会和坑蒙拐骗的行为共情,盲目带入身份、病态换位思考都是心智不健全的表现。本来这个什么数控公司已经安然撤退了,但这些云计算爱好者们如获至宝的反复提及此事,这实际是在坑谁哪?

fc283a7e38dc60fdad908caf2ba2fef7.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/821660.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

三道模拟题

P1003 [NOIP2011 提高组] 铺地毯 题目描述 原题点这里-->P1003 [NOIP2011 提高组] 铺地毯 - 洛谷 | 计算机科学教育新生态 (luogu.com.cn) 为了准备一个独特的颁奖典礼,组织者在会场的一片矩形区域(可看做是平面直角坐标系的第一象限)铺…

【C++】哈希一

这篇博客要说的是哈希算法,哈希又称为散列,它是将存储的值和存储的位置建立起关联关系的一种算法,或者说是一种将任意长度的数据映射为固定长度的输出的算法。 什么意思呢?我们来看一个例子:比如说我们要存储1&#xf…

【SLAM】在Win10上实现Nerf-Pytorch【GPU版】

文章目录 ReadMe安装依赖运行下载两个示例数据集:lego和fern训练一个低分辨率的Lego NeRF:训练一个低分辨率蕨类植物NeRF:更多数据集预训练模型可复现实现1、下载nerf-pytorch工程2、安装依赖3、下载数据4、运行lego NeRF:ReadMe Github链接 NeRF (神经辐射场)是一种在合成…

基于变压器的手持式超声图像中乳腺病变的分类不一致性测量表征

超声成像作为一种替代的低成本、易于获取的非电离成像方式已显示出巨大的前景,可用于乳腺癌筛查。特别是,随着最近便携式设备的出现,超声检查预计将在中低收入国家中越来越普及。然而,超声成像在乳腺癌诊断中的可靠性高度依赖于操…

竞赛 基于GRU的 电影评论情感分析 - python 深度学习 情感分类

文章目录 1 前言1.1 项目介绍 2 情感分类介绍3 数据集4 实现4.1 数据预处理4.2 构建网络4.3 训练模型4.4 模型评估4.5 模型预测 5 最后 1 前言 🔥 优质竞赛项目系列,今天要分享的是 基于GRU的 电影评论情感分析 该项目较为新颖,适合作为竞…

【数据结构|C语言版】双向链表

前言1. 初步认识双向链表1.1 定义1.2 结构1.3 储存 2. 双向链表的方法(接口函数)2.1 动态申请空间2.2 创建哨兵位2.3 查找指定数据2.4 指定位置插入2.5 指定位置删除2.6 头部插入2.7 头部删除2.8 尾部插入2.9 尾部删除2.10 计算链表大小2.11 销毁链表 3.…

记录一下hive跑spark的insert,update语句报类找不到的问题

我hive能正常启动,建表没问题,我建了一个student表,没问题,但执行了下面一条insert语句后报如下错误: hive (default)> insert into table student values(1,abc); Query ID atguigu_20240417184003_f9d459d7-199…

【Image captioning】论文阅读九—Self-Distillation for Few-Shot Image Captioning_2022

摘要 大规模图像字幕数据集的开发成本高昂,而大量未配对的图像和文本语料库可能有助于减少手动注释的工作。在本文中,我们研究了只需要少量带注释的图像标题对的少样本图像标题问题。我们提出了一种基于集成的自蒸馏方法,允许使用不成对的图像和字幕来训练图像字幕模型。该…

VBA脚本: excel隐藏和展开指定行 【图文】

打开开发工具功能 【文件】-》【选项】-》【自定义功能区】-》勾选【开发工具】-》【确定】 代开VBA编辑器 【开发工具】-》【Visual Basic】 插入模块 编写代码 所有sheet 关闭 Sub HideRowsInAllSheets()Dim ws As WorksheetDim i As Integer 循环遍历所有工作表For E…

【学习笔记】Python大数据处理与分析——Matplotlib数据可视化

一、绘图步骤 1、导入第三方库 import matplotlib.pyplot as plt import numpy as np 2、准备数据 x1 np.linspace(1, 10, 5) y1 np.sin(x1) 3、开始绘图 plt.plot(x1, y1, linewidth3) 4、完善图表 plt.title("plot figure") plt.xlabel("value of x&qu…

OpenHarmony、HarmonyOS和Harmony NEXT 《我们不一样》

1. OpenHarmony 定义与地位:OpenHarmony是鸿蒙系统的底层内核系统,集成了Linux内核和LiteOS,为各种设备提供统一的操作系统解决方案。 开源与商用:OpenHarmony是一个开源项目,允许开发者自由访问和使用其源代码&#…

【Leetcode每日一题】 递归 - 二叉树的所有路径(难度⭐)(59)

1. 题目解析 题目链接:257. 二叉树的所有路径 这个问题的理解其实相当简单,只需看一下示例,基本就能明白其含义了。 2.算法原理 针对二叉树路径的求解问题,我们可以采用深度优先遍历(DFS)的策略来寻找所…

Java项目如何使用EasyExcel插件对Excel数据进行导入导出

文章目录 一、EasyExcel的示例导入依赖创建实体类数据导入和导出 二、EasyExcel的作用三、EasyExcel的注解 EasyExcel是一个阿里巴巴开源的excel处理框架,它以使用简单、节省内存著称。在解析Excel时,EasyExcel没有将文件数据一次性全部加载到内存中&…

linux学习:进程(新建+运行某文件+退出处理函数+等待)

目录 api 创建新进程 注意 运行某文件 例子 注意 例子,等待进程 进程是由进程控制块、程序段、数据段三部分组成 进程有都有一个父进程,除了init,父进程可以创建子进程 每个进程都有一个PID,可以用ps来查看,等…

【行为型模式】策略模式

一、策略模式概述 策略模式(又叫政策Policy模式),属于对象行为模式下的:Strategy类提供了可插入式(Pluggable)算法的实现方案。 策略模式的定义-意图:定义一系列算法,将每一个算法封装起来,并让它们互相替换。策略模式…

Mybatis常用注解说明

MyBatisPlus 常用注解说明 TableName(opens new window) 描述:表名注解,标识实体类对应的表 使用位置:实体类 TableName("sys_user") public class User {private Long id;private String name;private Integer age;private Strin…

实用图像视频修复工具:完善细节、提高分辨率 | 开源日报 No.225

xinntao/Real-ESRGAN Stars: 25.6k License: BSD-3-Clause Real-ESRGAN 是一个旨在开发实用的图像/视频恢复算法的项目。 该项目主要功能、关键特性和核心优势包括: 提供动漫视频小模型和动漫插图模型支持在线 Colab 演示和便携式 Windows/Linux/MacOS 可执行文件…

如何利用纯前端技术,实现一个网页版视频编辑器?

纯网页版视频编辑器 一、前言二、功能实现三、所需技术四、部分功能实现4.1 素材预设4.2 多轨道剪辑 一、前言 介绍:本篇文章打算利用纯前端的技术,来实现一个网页版的视频编辑器。为什么突然想做一个这么项目来呢,主要是最近一直在利用手机…

OpenCV基本图像处理操作(四)——傅立叶变换

傅里叶变换的作用 高频:变化剧烈的灰度分量,例如边界 低频:变化缓慢的灰度分量,例如一片大海 滤波 低通滤波器:只保留低频,会使得图像模糊 高通滤波器:只保留高频,会使得图像细节…

Golang | Leetcode Golang题解之第31题下一个排列

题目: 题解: func nextPermutation(nums []int) {n : len(nums)i : n - 2for i > 0 && nums[i] > nums[i1] {i--}if i > 0 {j : n - 1for j > 0 && nums[i] > nums[j] {j--}nums[i], nums[j] nums[j], nums[i]}reverse…