这两天最大的国际新闻莫过于巴黎圣母院大火了。据今天早上的新闻报道,大火是由于意外导致的。一个意外,致使800多年历史的人类文明遗迹付之一炬。由此可见,在灾害面前,人类的历史和所谓的瑰宝,是多么的脆弱。
话锋一转,笔者不是研究人类文明的,但是这场大火的关键词“意外”,却让我联想到了数据中心最基础,却最重要的东西,那就是运维。所有人都希望在自己的工作当中作出成绩,在公司获得地位和利益,但是作为数据中心的运维团队来说,这却也是最难的。因为这是一份隐藏在后台的工作,他们的工作鲜有人注意,甚至外行都不知道他们的存在。但如果没有他们兢兢业业的工作,不知道有多少数据中心将会变成付之一炬的巴黎圣母院,而由此带来的现实经济和业务损失,甚至要远甚于后者。
对于一个占地动辄几万平米的数据中心来说,相关设备的巡检、检修、维护等都必须在保证效率的同时,把业务的影响降低到最小。现在新技术的发展可谓是日新月异,系统的复杂程度也越来越高。这就使得数据中心对系统运行安全,效率的要求也更为苛刻。一旦出现丝毫纰漏,轻则影响业务,重则造成社会和经济的重大损失。
2014年,三星韩国果川数据中心发生火灾的现场照片。不知道如今还有多少人记得?万幸的是当时这场大火没有人员伤亡,但由于火灾导致的宕机,还是使得许多用户的三星手机、平板电脑或智能电视收到了无法提供服务的讯息。事实上,不光国外,在中国每年也有很多因为人为疏漏造成的数据中心火灾。
一般人总认为数据中心都配有完善的消防器材、设施,并备有温感、烟感等报警器。如果遇到火灾隐患,会在第一时间被发现并处理。但其实这种想法是非常错误的,因为一旦数据中心失火,往往意味着事发地点的所有设备都要受到牵连,后面的影响将是巨大的。
数据中心火灾的主要特点是: 散热困难、烟气量大、用电量大、电气火灾居多、火灾损失大、扑救难度大、节点易燃烧。在数据机房发生的各类事故中,火灾事故约占80%左右。主要包括电子计算机本身起火;配套设备或附属装置起火;空调设备或电气设备起火;外来火灾侵扰等。
据日本计算机制造商对用户所作的调查表明,数据中心火灾的起因,计算机故障占3.4%;交换器与配电箱故障占6.9%;设备装配错误占10.2%;调节器故障占10.3%;火焰蔓延引起的第二次火灾占17.1%;与计算机无关的其他原因造成的火灾占52.1%。
上述这些和数据中心着火有关的节点,都是运维人员要直接面对的,最简单,也最枯燥的重复性工作。就好比这次的巴黎圣母院,据说是因为维修时候保险丝短路?多么低级的一个问题,就让一向以严谨著称的法国人丢了脸面。
话题再度回到数据中心,这里主要服务的对象是IT系统。虽然数据中心的生命周期长达十几年,甚至几十年。但是其中IT系统的变革却日新月异,而且每一次的变革,都会要求运维人员必须接受新的,更为严格的培训。他们必须随时了解业界最新的动态、技术。并应用这些技术处理问题,以减小风险。还是以最基础的IT设备上架为例,运维人员必须要提前检查腾空的容量,夏季必须关注通风和冷凝系统,防止高压报警灯。冬季则要重点关注空调加湿系统,防止相关故障报警。虽然现在的绿色技术层出不穷,甚至前段时间阿里数据中心还用机器人替代了30%的人工重复劳动,但这并不意味着基础运维可以懈怠了。
作为最基础,最容易被忽视,却又无比关键的运维岗位首先必须要注意,建立完善的巡查和维护、保养、应急处理等机制。其次,采用与时俱进的动环监控、报警系统。以减少误报、漏报的发生。最后,将相关人员的责任心、行动力作为基石。毕竟,如果没有高度负责的运维人员,一切都是空谈。