由中行IBM大型机宕机谈银行系统运维

12月15日中行IBM大型机宕机,系统没有第一时间切换到热备或者异地容灾上,直接影响中行的信用卡支付相关业务,直到4小时之后才恢复服务。由于银行业务的特殊性,对于系统的可用性要求极高,就此事件,我们采访了兴业银行系统分析师周伟然、支付宝应用运维架构师陆惟凯(花名:近南),请他们谈一下对于银行系统运维的一些看法。

\u0026#xD;\n

InfoQ:作为一名银行金融行业的IT技术专家,您认为本次中行IBM大型机宕机的体现出哪些问题和教训?

\u0026#xD;\n
\u0026#xD;\n

陆惟凯:主要的问题是灾备或大型故障的演练与决策,对于硬件或者机房故障的大型故障,需要有经过验证演练的切换方案来保证切换风险可控。对于故障决策来说是否启动灾备切换是个艰难的决定,不过确实也要能够下决策去切换。其实一切的根源还是在切换方案是否足够可靠、是否经过演练。只要切换风险可控,切换得决策其实不会太纠结。

\u0026#xD;\n

周伟然:对于本次中行事件,具体原因不了解得情况下不好直接评论。但所谓相关金融系统的运维是一个复杂的系统功能,不能单纯的从main frame的稳定性一概而论。设备运行的稳定性也只是整体系统稳定性的很小部分。除了环境保障中包含的网络环境、硬件资源、存储设备、操作系统数据库等基础软件环境以外,应用运行、系统间互操作等事件都可能产生重大影响。而风险是无法完全避免的,这才显示的出灾难备份和应急预案的重要性,最大程度降低风险暴露后的影响是验证应急体系有效性的重要指标。

\u0026#xD;\n
\u0026#xD;\n

InfoQ:ITIL流程是否在您所在的组织中使用?对于类似事故,ITIL流程的处理应该是什么样子?

\u0026#xD;\n
\u0026#xD;\n

陆惟凯:使用,不过不是标准的ITIL流程。我们有一个应急响应的Team在处理相关决策以及应急事务。对于特别重大的问题会在应急响应TEAM内进行决策。

\u0026#xD;\n

周伟然:我行使用ITIL。无论是ITIL还是各级监管机构,乃是内部风险机构,对于银行应急处理的流程均有严格的要求,基本上是系统分类,根据不同等级重要性提出不同的风险要求。对于重要系统,需要建设完备的灾备体系,建立完善的应急预案 并且需要确保灾备和应急预案的有效性。对此,监管和内部审计通过演练进行确认。 所谓的演练非模拟实际环境的演练,而是在实际的生产环境进行的模拟灾难,各机构对演练的频度和内容均有严格的要求,并且重大演练时,监管官员将进行现场检查 通过各银行每年发出的停业公告可以看到这些演练信息。

\u0026#xD;\n
\u0026#xD;\n

InfoQ:在你们的系统中,“桌面模拟演练”和“Call Tree演练”是如何进行的?

\u0026#xD;\n
\u0026#xD;\n

陆惟凯:模拟演练比较少吧。方案定了之后模拟其实都是没问题的,定期的review是需要的。演练相关主要是定期组织运维的容灾演练与应急演练以及网购节(双11大促)之前的演练。

\u0026#xD;\n

周伟然:据我所知,在股份制银行或规模以上银行,重要系统演练多以实际生产系统的方式进行,模拟演练主要用于系统正式上线之前的验证,在实际生产运行时并不采用也不符合监管要求。所有实际生产系统,即实际生产后台、实际渠道系统,但限定范围,例如,在演练时,可能关闭网银入口,使用户无法直接登录,控制演练本身造成的二次风险。

\u0026#xD;\n
\u0026#xD;\n

InfoQ: 相对互联网行业来说,银行金融行业的IT运维人员的素质和技能具体有哪些不同?

\u0026#xD;\n
\u0026#xD;\n

陆惟凯:个人感觉是比较接近的。可能是我在支付宝工作的缘故,IT相关企业的运维人员根据企业的性质不同(门户,电商,游戏,SNS)等会有一些各自有特色的容灾以及流控方案。所以需要相关的运维人员更多的了解前端业务,能够根据不同的故障情况进行不同的处理。(例进行功能的删减控制,流量开关,流量切换等)。另外IT企业运维人员遇到的外部故障会更多一些比方外部攻击,或运营商,或应用异常出现的故障。。另外传统IT业的系统更新频率会比金融业快上很多。相关应用发布带来的一些故障处理也会对运维人员提出更高的需求。传统金融行业的容灾方案相对来说就比较单纯一些。在数据备份方面IT企业根据企业特性不同,数据备份的重要性也会不同。金融行业对可用率以及数据备份的要求会更高。

\u0026#xD;\n

周伟然:由于不太了解互联网的运维素质所以不好比较。但对于金融行业运维,制度性准确性和规范性是很重要的。由于银行设计大量资金和重要隐私,在制度规范上有着较为严格的规定,例如业务、研发人员与生产系统严格分离、生产数据完全无法接触的到、需要检查分析时需要通过严格的审批流程。在研发软件下发生产也必须严格进行内容审查和审批,操作步骤必须清晰描写,而对于运维把控的是对于审批结果的执行,精确执行审批结果而不能自行改动丁点,而且执行过程被记录,可被审计 在风险发生时,则应依照预案进行各项操作。运维人员对于应急预案的制定的维护,需要基于大量运维经验,并且通过不断优化验证的。

\u0026#xD;\n
\u0026#xD;\n

InfoQ:能否介绍下:在您所在的组织中,关键业务系统的备份是怎么做的?

\u0026#xD;\n
\u0026#xD;\n

陆惟凯:同城容灾加异地灾备吧..同城容灾包括机房内单点容灾(备份)以及机房间的相互备份。

\u0026#xD;\n

周伟然:备份方式对于重要系统均需多方面考虑,例如某关键系统,首先在运行时就使用应用集群的方式确保可用性,通讯接入采用端口和地址复用进行多重备份。运行体系基本需要确保无单点故障,即单一功能点在2个或以上并行运行的节点。其他设备采用热备或冷备方式。该数据库备份基于数据库引擎和高端引擎进行远程灾备同步的功能,为单数据源热备份,数据的保存备份对于非监管要求数据,根据内部管理规定制定备份保存时间,备份至专用数据平台、对于监管要求的数据,在一定时间内在线保存至数据平台,长时间后转磁带长期保存。

\u0026#xD;\n
\u0026#xD;\n

InfoQ:在网友评论中看到一句话:“最关键的是一般都是只有设备容灾,没有人员组织架构的容灾。”请问您觉得“人员组织架构的容灾”应该如何理解?

\u0026#xD;\n
\u0026#xD;\n

陆惟凯:人员组织架构的容灾分两部分来看,一部分是操作以及一线的处理人员的备份,这块要保证相关的运维的操作技能与权限到位,在第一联系人没有联系到的情况下可以联系第二联系人来进行处理。

\u0026#xD;\n

第二是决策人员的备份对于决策的人员存在联系不上的情况下,可以联系备份决策人员来进行决策。

\u0026#xD;\n

当然这里的人员组织架构容灾基本还没有考虑到一个异地或者其他的成分,如果遇到毁天灭地型的地震或者更极端的灾难的时候,可能会缺乏异地的人手来处理问题。。

\u0026#xD;\n

周伟然:人员组织的架构在银行来说有着明确的规定。首先对于每个系统对应的负责人员需要报送管理,并且做到A、B角等多角定义,在系统故障和重大事件保障时均遵循流程对应具体人员。日常工作时,大家对ab角等也有一定的注意,例如某集体全体不宜同一趟飞机出行等来降低风险。

\u0026#xD;\n
\u0026#xD;\n

InfoQ:能否介绍一些国外银行金融企业对类似问题和事故的处理经验?

\u0026#xD;\n
\u0026#xD;\n

陆惟凯:没有相关的经验。

\u0026#xD;\n

周伟然:处理经验其实之上各题中均有提到,即功夫在平时。好的应急预案和备份需要大量前期工作和定期优化维护,并且验证,每次处理之后通过仔细的分析、审计、故障报告等方式探讨不足,不断地优化和改进。

\u0026#xD;\n

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/243367.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

修饰符const精妙之处

const用法详解 面向对象是C的重要特性. 但是c在c的基础上新增加的几点优化也是很耀眼的 就const直接可以取代c中的#define 以下几点很重要,学不好后果也也很严重 const 1. 限定符声明变量只能被读 const int i5; int j0; ... ij; //非法,导致编译错误 ji…

JSON.NET 5中的架构变更

Newtonsoft对JSON.NET进行了两个架构升级,以使其能够更容易地在涉及第三方库的项目中使用。这两个特性是默认设置和扩展数据。\u0026#xD;\n在JSON.NET 5r5中,开发者可以使用JsonSerializerSettings类重写序列化/反序列化选项。每次调用JsonConvert方法的…

MATLAB工具箱介绍

MATLAB工具箱介绍 Toolbox工具箱 序号 工具箱 备注 数学、统计与优化 1 Symbolic Math Toolbox 符号数学工具箱 2 Partial Differential Euqation Toolbox 偏微分方程工具箱 3 Statistics Toolbox 统计学工具箱 4 Curve Fitting Toolbox 曲线…

中国还有一个作家叫格非

有人担心,莫言获得诺贝尔文学奖之后,他的光环可能会遮蔽很多同样出色的中国作家,甚至让有些作家产生抵触和绝望的情绪,认为他的获奖无疑会让其他作家获奖的机会至少推迟十年(因为日本作家川端康成获得诺贝尔奖后二十多…

使用UltraEdit来拷贝粘贴二进制

使用UE以二进制方式打开文件的时候,经常会发现无法拷贝、赋值和粘贴该文件的一部分的情况,咋办,搞了半天原来如此呀:::: 第一步: 打开文件第二步: 进入二进制编辑模式(可以用快捷键 Ctrl H)第三…

映射技术之储存器映射

映射技术之储存器映射 一般情况下,我们希望当数据流过FPGA时,FPGA尽可能多地处理数据,并且减少FPGA和外部设备之间的数据传输,采用流水处理架构则可以很好地减少对存储器的频繁读写。 很少会把帧缓存放在FPGA内部(图像分辨率较小除外),而往往会将其放在片外的静态储存器…

短篇小说的可能性:从邓一光最近的短篇小说说起

最近,我发现不少作家自觉地开始关注和讨论短篇小说的写作了。在过去的相当长的时间里,尤其是上世纪90年代以来,我们作家中的很多人都去经营更有经济效益或更容易提高知名度的长篇小说,而短篇不过是练手或者当成长篇写作的间歇&…

DICOM

首先是缩略语解释: HIS医院信息系统PACS医学影像归档与传输系统LIS检验信息系统RIS放射信息系统CIS临床信息系统 HIS最大,是全医院的 PACS和RIS基本上是放射科(或者更准确地说是影像科室的) LIS自然是检验科室的 CIS是以病人为…

Windows Mobile的一些网站和资源(由网友搜集 我整理了一下)

WinMobile Ap 方面的资料随便可以找到,但是WinMobile BSP & Bootloader 方面的资料很难找到,因为有相关资料的公司都有 与 Microsoft 签 NDA, 所以是不被允许透露相关的细节的。 小弟从搜集了由网友提供的一些资料,开发windows mobile系…

“ 70后”作家:从尴尬自省到扬眉吐气

阿乙 近十年的中国文坛,“70后”作家无疑是最尴尬的一群人,他们很难摆脱“60后”作家的影子,因为“60后”作家太强大了,几乎遮盖了文坛的半个天空。况且“70后”作家在他们的创作初期还是以女性为主体,正所谓阴盛阳衰&…

整型变量(int)与字节数组(byte[])的相互转换

// int2byte.cpp : 定义控制台应用程序的入口点。 //#include "stdafx.h" #include <Windows.h>/* #define MAKEWORD(a, b) ((WORD)(((BYTE)(((DWORD_PTR)(a)) & 0xff)) | ((WORD)((BYTE)(((DWORD_PTR)(b)) & 0xff))) << 8)) #define MAKELONG(a…

储存器和寄存器

储存器和寄存器 &#xff08;1&#xff09;、储存器映射 储存器本身不具有地址信息&#xff0c;它的地址是由芯片厂商或用户分配&#xff0c;给储存器分配地址的过程称为储存器映射&#xff0c;如果再分配一个地址就叫重映射。 &#xff08;2&#xff09;、寄存器映射 通过#pr…

一部后现代文学的“奇书”:《烟草经纪人》

美国作家约翰巴思《烟草经纪人》&#xff08;两卷本&#xff0c;1000多页&#xff09;终于出版了&#xff0c;我也算是了却了一桩心事。这部后现代文学的名著&#xff0c;被罗兰巴特、米兰昆德来誉为“奇书”的巨著&#xff0c;我作为策划人花了半年多的时间对译文进行了通读、…

CETK测试原理/测试方法/测试结果分析以及常见WinCE Test Kit运行问题的排查

小弟这两天学习和分析了CETK&#xff0c;并总结了一份文档&#xff0c;粘贴出来&#xff0c;希望对各位有用。 因为文章有26页&#xff0c;没有办法在一篇帖子中罗列出来&#xff0c;我分好几个帖子进行罗列。 CONTENT 一&#xff0e;CETK概述... 1 1&#xff0e;CETK是什么...…

提升.NET应用程序启动速度

.NET框架是Windows系统上所有基于.NET的应用程序的基础。出于性能方面的考虑&#xff0c;Windows会运行.NET框架优化服务&#xff08;它的可执行程序名称是mscorsvw.exe&#xff09;&#xff0c;优化用户机器上.NET应用程序的性能。初次安装新版本的.NET框架&#xff0c;或者框…

2013年08月13日

锡尼河西苏木。我儿时暑期常来的草原&#xff0c;已然翻天覆地。我住过的姑姑家的老房子&#xff0c;只剩下一间土坯房&#xff0c;寂寞在一片砖瓦房之间。院门上了锁&#xff0c;显然已很久没人住过。老供销社已经转卖给个人经营&#xff0c;粮库内也已没有粮食。记得我曾在粮…

提前祝大家十一中秋节快乐

一、一大早被闹钟吵醒&#xff0c;说明还活着&#xff1b;二、不得不从被窝里爬起来上班&#xff0c;说明没有失业&#xff1b;三、收到一些短信&#xff0c;或吃饭聚聚&#xff0c;说明还有朋友想咱&#xff1b;四、听别人的话有时刺耳&#xff0c;说明还有人注意你&#xff1…

分块内存映射处理大文件-例子

参考 &#xff1a;http://user.qzone.qq.com/382164370/infocenter#!app2&viaQZ.HashRefresh&pos1363445766 内存映射文件可以用于3个不同的目的 • 系统使用内存映射文件&#xff0c;以便加载和执行. exe和DLL文件。这可以大大节省页文件空间和应用程序启动运行所需…

视频图像处理仿真测试系统

视频图像处理仿真测试系统 1、仿真测试系统框架 一个完善的仿真测试系统对于图像处理算法的设计至关重要。这个测试系统至少要完成以下功能: (1)模拟可配置的视频流(单帧的视频即为一幅图像)。 (2)模拟视频捕获,生成视频数据。 (3)测试系统与testbench及视频流的数据…